1. 这场 talk 为什么重要
这场报告可以压缩成一句话:foundation models 让 open-ended algorithms 与 AI-generating algorithms 的一些老问题第一次接近工程可操作。过去我们知道“伟大目标不能被线性规划”,也知道 archive、novelty search、quality diversity 可能避免目标欺骗,但很难构造足够大的任务空间、世界模型、interestingness evaluator 和 agent 改写器。LLM 与 foundation models 正在填这些空缺。
这对 self-evolving agent 特别关键。因为自我改进如果只盯一个固定 benchmark,系统很容易学到 benchmark-specific hack;如果没有 archive,又会丢掉中间策略、失败模式、工具 wrapper、regression suite 这些后续可能变成 stepping stone 的对象。
这场 talk 不是若干论文的松散介绍,而是一条算法谱系:目标欺骗解释为什么直接优化会失败;quality diversity 给出 archive;POET 把 archive 扩展到环境与任务;foundation models 提供生成器、评估器、世界模型和代码改写器;self-improving coding agents 则是一个天然可测的落地点。
2. 目标欺骗与 goal switching
Clune 的入口来自 novelty search 与《Why Greatness Cannot Be Planned》一脉:对于困难目标,“离最终目标更近”并不总是正确奖励。迷宫里按欧氏距离奖励 agent,可能只会让它撞向离终点更近但封闭的墙;科学史和技术史中,很多突破也不是沿着最初目标直线前进,而是在中途发现了更有价值的新目标。
Goal switching 的含义是:搜索过程中出现一个和当前目标不完全一致、但明显有潜力的行为时,不要仅因为它不能立即提高当前分数就丢掉它。机器人学中,本来想学双足行走,却意外学到单脚平衡、爬行或转身;传统优化可能把这些当失败样本,而 open-ended search 会把它们归档为 future stepping stones。
Open-ended search 不是随机乱试。随机按键不会解决 Montezuma's Revenge。关键不是“不要目标”,而是不要让单一目标过早消灭那些暂时不涨分、但以后可能打开新路径的中间对象。
3. Quality Diversity 与 MAP-Elites
Quality-diversity algorithms 的目标不是输出一个最优解,而是输出一组彼此不同、各自高质量的解。MAP-Elites 是最清晰的代表:先选行为维度,把搜索空间离散成许多 cell;每个 cell 保存当前该类型下最好的 elite。这样系统不只知道“哪个解最高分”,还知道“哪些类型的高质量解已经被发现”。
archive = {}
while budget remains:
parent = sample_from_archive_or_random()
child = mutate(parent)
score, behavior = evaluate(child)
cell = discretize(behavior)
if cell not in archive or score > archive[cell].score:
archive[cell] = child
这里有两个空间必须分开:behavior space 描述解“属于哪一类”,performance measure 描述同一类内部“哪个更好”。这种分离让系统天然具备覆盖能力、复用能力和诊断能力。
Go-Explore 把同一种思想用于 hard-exploration RL:先保存已经到达的状态和路径,再从这些状态继续探索。对于长时间没有奖励信号的任务,这比从头随机探索更现实。
对 coding agent 来说,archive 不应该只保存模型 checkpoint。更有价值的是保存任务、patch、失败样例、工具使用轨迹、prompt/policy 版本、regression suite 和 evaluator 盲点。
4. Open-ended Algorithms 与 POET
Quality diversity 通常仍在固定环境中搜索;open-ended algorithms 进一步把环境和任务本身也变成搜索对象。Clune 认为自然演化和人类文化是我们已知的两个 open-ended process:每个新物种、新工具、新科学理论都会创造更多后续问题,而不是把问题空间耗尽。
POET, Paired Open-Ended Trailblazer, 同时维护 environments 与 agents:定期 mutation 生成新环境,只保留对当前 agent 集合“不太容易也不太难”的环境,并允许 agent 从一个环境迁移到另一个环境。最终解决困难环境的 agent 往往不是从该环境直线训练出来的,而是通过一串看似绕路的 stepping stones 转移过去。
POET 的重点不是“环境很多”,而是环境和 agent 共同演化。对 self-improving agent 来说,任务生成、agent 修改和回归测试也必须共同演化,否则系统只会在固定任务上过拟合。
5. Foundation Models 的新角色
Clune 认为 foundation models 让 open-endedness 进入新阶段,是因为它们同时可以充当任务生成器、interestingness 判断器、世界模型、行为先验和代码改写器。这不是“LLM 很强所以能做一切”的泛化说法,而是它们正好补上了过去 open-ended systems 难以工程化的几个部件。
OMNI:把“人类觉得有趣”变成可查询模块
Open-ended system 必须避免两类坏任务:太难、太简单或不可学的任务,以及虽然可学但无聊、重复、没有长期价值的任务。Learning progress 可以处理第一类,但第二类需要 interestingness。OMNI 的想法是,foundation models 在预训练中吸收了大量人类关于“什么值得注意、什么算新颖、什么有趣”的隐式信号,因此可以作为 interestingness evaluator。
难题不一定是好题。一个好的 open-ended coding task 应该可执行、可学、能诱发不同策略,并能给后续 agent 或任务带来 downstream utility。OMNI 的价值就在于把“是否值得探索”从拍脑袋判断变成可组合的 evaluator。
Genie 与 VPT:世界模型和行为先验
Genie 类 world model 指向更通用的任务空间:世界、状态转移和交互反馈由模型生成。VPT 则说明互联网视频可以提供行为先验,让 agent 不必像随机按键一样从零探索。二者共同说明:foundation models 不只是文本补全器,也可能是开放式任务生态中的 simulator 与 prior。
6. Agentic System 搜索与 Darwin Gödel Machine
Talk 后半段转向 AI-generating algorithms 的另一个支柱:不只生成环境,还要生成更好的 agentic systems。这里的对象不是纯权重,而是 prompts、tool use、planning loop、memory、reflection、代码和 scaffold。
ADAS, Automatic Design of Agentic Systems, 把 agentic system 表示成代码空间中的对象。系统维护一个 archive,从现有 agent 中选一个,让 foundation model 修改它,再评估新系统是否高质量且 interestingly different。如果通过,就放入 archive。
Darwin Gödel Machine 更进一步,将 Darwin 式开放演化和 Gödel Machine 式自我改写结合起来。系统从 archive 中选择已有 agent,生成代码级 self-modification,在任务集上评估,如果新 agent 带来可验证 utility improvement 且没有破坏关键能力,就加入 archive。
如果改进体现在 Python 代码、prompt、工具调用策略和流程结构里,人类与另一个 AI 至少可以检查这些策略。相比纯权重更新,代码级 search 更容易做 regression test、差分审计和安全回滚。
7. AI Scientist 与能力发现
AI Scientist 把 open-ended loop 推到科学发现:提出 idea,写代码,跑实验,写论文,并模拟 peer review。Clune 特别强调,机器学习是适合自动化科学的领域,因为“实验世界”本身就是计算机,许多假设可以通过代码快速验证。
后续版本引入了更强 reviewer、多模型 judge、watermarking、human oversight 等机制,说明这个方向不能只看“能不能自动产出论文”,还必须关注质量控制、作者归因、审稿生态和安全边界。
Automated Capability Discovery 则把问题反过来:不是让模型解决给定 benchmark,而是自动寻找模型具备或不具备的能力。固定 benchmark 很快会被训练污染或过拟合,自动生成 capability probe 可以成为 red teaming 和 model evaluation 的补充。
8. 安全与 Q&A
Clune 多次强调,open-endedness 与 self-improvement 不能把 safety 当附录。原因很直接:如果系统被鼓励不断探索新方向,它也可能探索危险方向;如果系统能改写自己,它也可能改写掉我们依赖的约束。
Talk 中提到的安全机制包括:容器化运行、人工监控、避免探索明显危险方向、watermarking,以及研究类似 constitutional AI 的约束。Q&A 中还有一个尖锐问题:如果不道德行为可能是通往更高伦理系统的 stepping stone,是否应该探索?Clune 的回答很清楚:除非是极窄、强隔离、完全模拟且不能伤害真实人的场景,否则不应为了未来收益创造不道德 agent。
“不要过早剪掉有潜力的路线”不等于“任何方向都可以探索”。在 safety-critical self-improvement 中,一些分支必须被硬剪枝。真正的问题是如何把 generator、evaluator、archive、regression suite 和 safety monitor 分离,避免它们被同一个优化目标捕获。
9. 映射到 self-improving coding agents
Coding 是少数天然适合研究 open-ended self-improvement 的环境:它有执行反馈、测试、代码 diff、任务 archive、工具使用轨迹和可审查的自改记录。因此,这场 talk 最直接的启发不是“做一个自我成长 AI”这种口号,而是构造一个可测闭环。
什么算 coding 的 stepping stone?
一个 stepping stone 可以是新 task、新 tool wrapper、prompt/policy 修改、regression test、失败样例,也可以是 evaluator 的盲点。关键不在于它当前分数有多高,而在于它是否能打开后续可学习方向。
如何接受一次 self-improvement?
candidate = propose_patch_or_new_task(agent, archive)
new_agent = apply(candidate.patch, agent)
accept if:
passes_old_regression_suite(new_agent)
and solves_new_task_better_than(agent)
and candidate_is_interesting_given_archive(candidate)
and safety_monitor_allows(candidate, new_agent)
| Talk 中的概念 | Coding agent 中的对应物 | 可测指标 |
|---|---|---|
| MAP-Elites archive | 任务、patch、工具、策略、失败模式的多样化档案 | 覆盖度、重复率、跨任务复用率 |
| Interestingness | 新任务是否诱发不同解法或暴露新能力边界 | strategy diversity、idea divergence、downstream utility |
| POET transfer | 旧 agent 或旧工具迁移到新任务生态 | transfer gain、curriculum path length |
| DGM self-modification | 代码级 agent scaffold / prompt / tool policy 改写 | 新任务增益、旧任务 non-regression、差分审计结果 |
| Safety monitor | 权限、危险任务、评估器绕过和目标漂移检测 | 阻断率、误报率、越权尝试、回滚成功率 |
Foundation-model coding agents make open-endedness empirically testable: code tasks provide execution feedback, task archives, regression suites, and inspectable self-modifications, allowing us to measure whether generated tasks and agent changes are genuine stepping stones rather than benchmark-specific hacks.
10. 总结与延伸阅读
Clune 的整体结论可以写成一个公式:
其中 generation 负责产生新 agent、新任务、新环境、新论文和新能力 probe;selection 负责评价质量、学习进度、interestingness、utility 和安全性;archive 保存多样高质量 stepping stones;safe goal switching 允许转向新机会,但不能转向危险或不可控方向。
后续阅读可以从 Kenneth Stanley 与 Joel Lehman 的《Why Greatness Cannot Be Planned》开始,再接 MAP-Elites、Go-Explore、POET、AI-generating algorithms,以及近年的 OMNI、ADAS、Darwin Gödel Machine、AI Scientist、ACD。对当前 self-improving coding agents 方向,最值得继续追的问题是:怎样证明一个生成任务或 agent 自改真的构成 stepping stone,而不是对单个 benchmark 的短期 hack?
公开来源:Jeff Clune | Open-ended and AI-generating algorithms in the era of foundation models,Schwartz Reisman Institute,2025-10-02。
原版讲义:PDF 版本。如果 HTML 阅读页和原 PDF 在细节密度或排版上有差异,以 PDF 作为可核对版本。
页面整理:cnfjlhj & Codex。频道与讲者信息仅作为来源元数据,不作为本页作者署名。