Jeff Clune: Open-ended and AI-generating Algorithms in the Era of Foundation Models

1. 这场 talk 为什么重要

这场报告可以压缩成一句话：foundation models 让 open-ended algorithms 与 AI-generating algorithms 的一些老问题第一次接近工程可操作。过去我们知道“伟大目标不能被线性规划”，也知道 archive、novelty search、quality diversity 可能避免目标欺骗，但很难构造足够大的任务空间、世界模型、interestingness evaluator 和 agent 改写器。LLM 与 foundation models 正在填这些空缺。

这对 self-evolving agent 特别关键。因为自我改进如果只盯一个固定 benchmark，系统很容易学到 benchmark-specific hack；如果没有 archive，又会丢掉中间策略、失败模式、工具 wrapper、regression suite 这些后续可能变成 stepping stone 的对象。

讲座的总议程：quality diversity、open-ended algorithms、AI-generating algorithms，以及 foundation models 为什么改变这条路线的工程可行性。 *视频时间：00:04:20--00:04:50*

核心压缩

这场 talk 不是若干论文的松散介绍，而是一条算法谱系：目标欺骗解释为什么直接优化会失败；quality diversity 给出 archive；POET 把 archive 扩展到环境与任务；foundation models 提供生成器、评估器、世界模型和代码改写器；self-improving coding agents 则是一个天然可测的落地点。

2. 目标欺骗与 goal switching

Clune 的入口来自 novelty search 与《Why Greatness Cannot Be Planned》一脉：对于困难目标，“离最终目标更近”并不总是正确奖励。迷宫里按欧氏距离奖励 agent，可能只会让它撞向离终点更近但封闭的墙；科学史和技术史中，很多突破也不是沿着最初目标直线前进，而是在中途发现了更有价值的新目标。

Goal switching 的含义是：搜索过程中出现一个和当前目标不完全一致、但明显有潜力的行为时，不要仅因为它不能立即提高当前分数就丢掉它。机器人学中，本来想学双足行走，却意外学到单脚平衡、爬行或转身；传统优化可能把这些当失败样本，而 open-ended search 会把它们归档为 future stepping stones。

最终高质量解的 lineage 往往跨越多个行为区域，说明反直觉课程与 goal switching 是成功搜索的一部分。 *视频时间：00:11:45--00:12:15*

误解

Open-ended search 不是随机乱试。随机按键不会解决 Montezuma's Revenge。关键不是“不要目标”，而是不要让单一目标过早消灭那些暂时不涨分、但以后可能打开新路径的中间对象。

3. Quality Diversity 与 MAP-Elites

Quality-diversity algorithms 的目标不是输出一个最优解，而是输出一组彼此不同、各自高质量的解。MAP-Elites 是最清晰的代表：先选行为维度，把搜索空间离散成许多 cell；每个 cell 保存当前该类型下最好的 elite。这样系统不只知道“哪个解最高分”，还知道“哪些类型的高质量解已经被发现”。

MAP-Elites 的 archive 思想：用行为维度划分 cell，每个 cell 保留同类型中当前质量最高的 elite。 *视频时间：00:08:45--00:09:15*

archive = {}
while budget remains:
    parent = sample_from_archive_or_random()
    child = mutate(parent)
    score, behavior = evaluate(child)
    cell = discretize(behavior)
    if cell not in archive or score > archive[cell].score:
        archive[cell] = child

这里有两个空间必须分开：behavior space 描述解“属于哪一类”，performance measure 描述同一类内部“哪个更好”。这种分离让系统天然具备覆盖能力、复用能力和诊断能力。

Quality-diversity search 的差异：不是只爬一个最高峰，而是在搜索空间中保留多个高质量、多样化的可复用垫脚石。 *视频时间：00:10:15--00:10:45*

Go-Explore 把同一种思想用于 hard-exploration RL：先保存已经到达的状态和路径，再从这些状态继续探索。对于长时间没有奖励信号的任务，这比从头随机探索更现实。

Go-Explore 把 archive 思想用于稀疏奖励强化学习：先保存已经到达的状态，再从那里继续探索。 *视频时间：00:13:15--00:13:50*

对 agent 研究的翻译

对 coding agent 来说，archive 不应该只保存模型 checkpoint。更有价值的是保存任务、patch、失败样例、工具使用轨迹、prompt/policy 版本、regression suite 和 evaluator 盲点。

4. Open-ended Algorithms 与 POET

Quality diversity 通常仍在固定环境中搜索；open-ended algorithms 进一步把环境和任务本身也变成搜索对象。Clune 认为自然演化和人类文化是我们已知的两个 open-ended process：每个新物种、新工具、新科学理论都会创造更多后续问题，而不是把问题空间耗尽。

Open-ended algorithms 的目标不是解完一个任务，而是让系统持续产生新环境、新问题和新能力。 *视频时间：00:17:45--00:18:15*

POET, Paired Open-Ended Trailblazer, 同时维护 environments 与 agents：定期 mutation 生成新环境，只保留对当前 agent 集合“不太容易也不太难”的环境，并允许 agent 从一个环境迁移到另一个环境。最终解决困难环境的 agent 往往不是从该环境直线训练出来的，而是通过一串看似绕路的 stepping stones 转移过去。

POET 同时演化环境和 agent：新环境要不太容易也不太难，并允许已有 agent 跨环境迁移。 *视频时间：00:19:15--00:19:50*

关键机制

POET 的重点不是“环境很多”，而是环境和 agent 共同演化。对 self-improving agent 来说，任务生成、agent 修改和回归测试也必须共同演化，否则系统只会在固定任务上过拟合。

5. Foundation Models 的新角色

Clune 认为 foundation models 让 open-endedness 进入新阶段，是因为它们同时可以充当任务生成器、interestingness 判断器、世界模型、行为先验和代码改写器。这不是“LLM 很强所以能做一切”的泛化说法，而是它们正好补上了过去 open-ended systems 难以工程化的几个部件。

AI-generating algorithms 试图自动产生学习算法、架构、环境、任务和更强 AI 系统。 *视频时间：00:22:10--00:22:45*

OMNI：把“人类觉得有趣”变成可查询模块

Open-ended system 必须避免两类坏任务：太难、太简单或不可学的任务，以及虽然可学但无聊、重复、没有长期价值的任务。Learning progress 可以处理第一类，但第二类需要 interestingness。OMNI 的想法是，foundation models 在预训练中吸收了大量人类关于“什么值得注意、什么算新颖、什么有趣”的隐式信号，因此可以作为 interestingness evaluator。

OMNI 把 learning progress 与 foundation model 的 interestingness 判断结合，筛掉无聊、重复或价值低的新任务。 *视频时间：00:28:10--00:28:50*

OMNI 在 Crafter/BabyAI 等环境中展示：只看均匀采样或学习进度不够，human-notion interestingness 能改善开放式探索。 *视频时间：00:29:40--00:30:15*

为什么这点对 coding benchmark 很重要

难题不一定是好题。一个好的 open-ended coding task 应该可执行、可学、能诱发不同策略，并能给后续 agent 或任务带来 downstream utility。OMNI 的价值就在于把“是否值得探索”从拍脑袋判断变成可组合的 evaluator。

Genie 与 VPT：世界模型和行为先验

Genie 类 world model 指向更通用的任务空间：世界、状态转移和交互反馈由模型生成。VPT 则说明互联网视频可以提供行为先验，让 agent 不必像随机按键一样从零探索。二者共同说明：foundation models 不只是文本补全器，也可能是开放式任务生态中的 simulator 与 prior。

Genie 类 foundation world model 让任务空间本身更通用：世界、状态转移和交互反馈都可由模型生成。 *视频时间：00:38:40--00:39:20*

Video Pre-Training 展示互联网视频作为行为先验的价值：agent 不必永远从随机按键开始探索。 *视频时间：00:43:10--00:43:50*

6. Agentic System 搜索与 Darwin Gödel Machine

Talk 后半段转向 AI-generating algorithms 的另一个支柱：不只生成环境，还要生成更好的 agentic systems。这里的对象不是纯权重，而是 prompts、tool use、planning loop、memory、reflection、代码和 scaffold。

ADAS, Automatic Design of Agentic Systems, 把 agentic system 表示成代码空间中的对象。系统维护一个 archive，从现有 agent 中选一个，让 foundation model 修改它，再评估新系统是否高质量且 interestingly different。如果通过，就放入 archive。

ADAS 将 agentic system 表示为可修改代码，在 memory、tool use、planning、reflection 等模块组合上做搜索。 *视频时间：00:49:10--00:49:50*

Darwin Gödel Machine 更进一步，将 Darwin 式开放演化和 Gödel Machine 式自我改写结合起来。系统从 archive 中选择已有 agent，生成代码级 self-modification，在任务集上评估，如果新 agent 带来可验证 utility improvement 且没有破坏关键能力，就加入 archive。

Darwin Gödel Machine 将自我改写与 open-ended archive 结合：从已有 agent 出发，生成并评估新的代码级后代。 *视频时间：00:53:40--00:54:20*

DGM 的消融结果强调两件事都重要：self-improvement 与 open-ended archive 缺一不可。 *视频时间：00:55:10--00:55:50*

为什么“代码级自改”值得重视

如果改进体现在 Python 代码、prompt、工具调用策略和流程结构里，人类与另一个 AI 至少可以检查这些策略。相比纯权重更新，代码级 search 更容易做 regression test、差分审计和安全回滚。

7. AI Scientist 与能力发现

AI Scientist 把 open-ended loop 推到科学发现：提出 idea，写代码，跑实验，写论文，并模拟 peer review。Clune 特别强调，机器学习是适合自动化科学的领域，因为“实验世界”本身就是计算机，许多假设可以通过代码快速验证。

后续版本引入了更强 reviewer、多模型 judge、watermarking、human oversight 等机制，说明这个方向不能只看“能不能自动产出论文”，还必须关注质量控制、作者归因、审稿生态和安全边界。

AI Scientist v2 强化了质量与安全机制，包括更好的 reviewer model、多模型 judge、watermarking 和人工监督。 *视频时间：01:01:10--01:01:50*

Automated Capability Discovery 则把问题反过来：不是让模型解决给定 benchmark，而是自动寻找模型具备或不具备的能力。固定 benchmark 很快会被训练污染或过拟合，自动生成 capability probe 可以成为 red teaming 和 model evaluation 的补充。

Automated Capability Discovery 自动寻找模型能力和失败模式，补固定 benchmark 与人工 red team 的覆盖盲区。 *视频时间：01:04:10--01:04:50*

8. 安全与 Q&A

Clune 多次强调，open-endedness 与 self-improvement 不能把 safety 当附录。原因很直接：如果系统被鼓励不断探索新方向，它也可能探索危险方向；如果系统能改写自己，它也可能改写掉我们依赖的约束。

安全部分：containerization、watermarking、human oversight、危险方向剪枝和 constitutional constraints 是自改系统的基础设施。 *视频时间：00:55:40--00:56:20*

Talk 中提到的安全机制包括：容器化运行、人工监控、避免探索明显危险方向、watermarking，以及研究类似 constitutional AI 的约束。Q&A 中还有一个尖锐问题：如果不道德行为可能是通往更高伦理系统的 stepping stone，是否应该探索？Clune 的回答很清楚：除非是极窄、强隔离、完全模拟且不能伤害真实人的场景，否则不应为了未来收益创造不道德 agent。

Open-endedness 不等于不剪枝

“不要过早剪掉有潜力的路线”不等于“任何方向都可以探索”。在 safety-critical self-improvement 中，一些分支必须被硬剪枝。真正的问题是如何把 generator、evaluator、archive、regression suite 和 safety monitor 分离，避免它们被同一个优化目标捕获。

9. 映射到 self-improving coding agents

Coding 是少数天然适合研究 open-ended self-improvement 的环境：它有执行反馈、测试、代码 diff、任务 archive、工具使用轨迹和可审查的自改记录。因此，这场 talk 最直接的启发不是“做一个自我成长 AI”这种口号，而是构造一个可测闭环。

Archive任务、patch、工具、失败模式、策略版本

Generator生成新任务、新 patch、新工具 wrapper

Evaluator质量、utility、新颖性、可学性

Regression旧能力保留与反退化测试

Safety Monitor危险方向、权限越界、评估器绕过

什么算 coding 的 stepping stone？

一个 stepping stone 可以是新 task、新 tool wrapper、prompt/policy 修改、regression test、失败样例，也可以是 evaluator 的盲点。关键不在于它当前分数有多高，而在于它是否能打开后续可学习方向。

如何接受一次 self-improvement？

candidate = propose_patch_or_new_task(agent, archive)
new_agent = apply(candidate.patch, agent)

accept if:
    passes_old_regression_suite(new_agent)
    and solves_new_task_better_than(agent)
    and candidate_is_interesting_given_archive(candidate)
    and safety_monitor_allows(candidate, new_agent)

Talk 中的概念	Coding agent 中的对应物	可测指标
MAP-Elites archive	任务、patch、工具、策略、失败模式的多样化档案	覆盖度、重复率、跨任务复用率
Interestingness	新任务是否诱发不同解法或暴露新能力边界	strategy diversity、idea divergence、downstream utility
POET transfer	旧 agent 或旧工具迁移到新任务生态	transfer gain、curriculum path length
DGM self-modification	代码级 agent scaffold / prompt / tool policy 改写	新任务增益、旧任务 non-regression、差分审计结果
Safety monitor	权限、危险任务、评估器绕过和目标漂移检测	阻断率、误报率、越权尝试、回滚成功率

可发展的 research thesis

Foundation-model coding agents make open-endedness empirically testable: code tasks provide execution feedback, task archives, regression suites, and inspectable self-modifications, allowing us to measure whether generated tasks and agent changes are genuine stepping stones rather than benchmark-specific hacks.

10. 总结与延伸阅读

Clune 的整体结论可以写成一个公式：

Open-ended progress = generation + selection + archive + safe goal switching

其中 generation 负责产生新 agent、新任务、新环境、新论文和新能力 probe；selection 负责评价质量、学习进度、interestingness、utility 和安全性；archive 保存多样高质量 stepping stones；safe goal switching 允许转向新机会，但不能转向危险或不可控方向。

总体结论：OMNI、DGM、VPT、AI Scientist 等系统都在复用 open-endedness、archive 与 foundation-model evaluator 的组合。 *视频时间：01:07:10--01:07:50*

结尾隐喻：开放式成长更像不断分叉的生态系统，而不是一条预先规划好的工程路线。 *视频时间：01:08:40--01:09:20*

后续阅读可以从 Kenneth Stanley 与 Joel Lehman 的《Why Greatness Cannot Be Planned》开始，再接 MAP-Elites、Go-Explore、POET、AI-generating algorithms，以及近年的 OMNI、ADAS、Darwin Gödel Machine、AI Scientist、ACD。对当前 self-improving coding agents 方向，最值得继续追的问题是：怎样证明一个生成任务或 agent 自改真的构成 stepping stone，而不是对单个 benchmark 的短期 hack？

公开来源：Jeff Clune | Open-ended and AI-generating algorithms in the era of foundation models，Schwartz Reisman Institute，2025-10-02。

原版讲义：PDF 版本。如果 HTML 阅读页和原 PDF 在细节密度或排版上有差异，以 PDF 作为可核对版本。

页面整理：cnfjlhj & Codex。频道与讲者信息仅作为来源元数据，不作为本页作者署名。

一张图读懂这场 talk

1. 这场 talk 为什么重要

2. 目标欺骗与 goal switching

3. Quality Diversity 与 MAP-Elites

4. Open-ended Algorithms 与 POET

5. Foundation Models 的新角色

OMNI：把“人类觉得有趣”变成可查询模块

Genie 与 VPT：世界模型和行为先验

6. Agentic System 搜索与 Darwin Gödel Machine

7. AI Scientist 与能力发现

8. 安全与 Q&A

9. 映射到 self-improving coding agents

什么算 coding 的 stepping stone？

如何接受一次 self-improvement？

10. 总结与延伸阅读