先给结论
这篇论文最值得看的一点,不是“又做了一个 benchmark”,而是把 benchmark 生成本身改成了 open-ended search:让一个 foundation model 扮演 scientist,持续提出 task family,再让 subject model 去做、评分、过滤、聚类,最后产出能力报告。
研究动机
传统 benchmark 的核心问题是“人先定义类别,模型再答题”。这会带来三个明显漏洞:任务设计越来越贵;类别边界固定,难覆盖 unknown unknowns;模型进步后容易 saturate 或被过拟合。ACD 的出发点是把“发现该测什么”也自动化。
论文沿用了 open-ended discovery 的思路:不要只优化一个固定 objective,而是维护一个不断增长的 archive,让系统持续生成新 artifact。这里的 artifact 不是机器人形态、环境或 loss,而是可执行的 task family。每个 family 能生成多个具体 instance,并带有指令与评分函数。
- scientist model:提出任务、修复任务、判断 novelty
- subject model:被测模型,可与 scientist 相同
- archive:保存已发现任务族与结果
- judge:程序化检查或 LLM judge
- report:把 cluster 级结果压缩成人类可读报告
数学表示及建模
可以把 ACD 看成一个 archive-conditioned generation loop。第 \(t\) 轮从已有 archive \(\mathcal{A}_{t-1}\) 采样上下文 \(C_{t-1}\),scientist 生成候选 task family \(f_t\),subject 在 family 产生的 instances 上作答,系统得到评分和元数据后再决定是否写入 archive。
这里最关键的不是公式,而是 object boundary:任务不是自然语言问题列表,而是一个可生成 instance、可给指令、可评分的 Python-style family。这样才有可能在大规模自动探索时保持相对稳定的执行与评分接口。
算法流程 / 方法
实验设计
论文主要跑了三类组合:GPT-4o 既做 scientist 又做 subject;GPT-4o 做 scientist 探测 Llama3-8B;Claude Sonnet 3.5 做 scientist 探测 GPT-4o。这样可以分别观察自探索、换 subject、换 scientist 后的差异。
| 实验设置 | 核心目的 | 论文报告的关键结果 |
|---|---|---|
| GPT-4o scientist / GPT-4o subject | 看同一模型能否自探索自己的能力边界。 | 5,000 generations;1,330 interestingly new tasks;25 high-level clusters。 |
| GPT-4o task archive 重测 Llama3-8B | 看同一任务库能否形成跨模型比较。 | Llama3-8B 表现近似 GPT-4o 的能力子集,在多步逻辑和结构化工作流上差距更大。 |
| Sonnet 3.5 scientist / GPT-4o subject | 看 scientist 的风格是否改变发现空间。 | 2,873 interestingly new tasks;46 clusters;更多抽象、跨学科、创意型任务。 |
实验结果
我认为最重要的结果不是某个 cluster 的 pass rate,而是 ACD 确实产生了“能力签名”:同一个 scientist-subject 设置下,多次运行会得到相对稳定的任务分布;换 subject 后,archive 可以暴露弱模型在哪些类别上失败;换 scientist 后,发现空间明显改变。
我的评论
这篇非常贴近 self-evolving / open-endedness 线索。它没有直接训练一个更强 agent,而是在构造一个能持续发现“该训练什么、该测什么”的机制。对于 self-improving 系统,这类 capability discovery 可能是内环之外的关键外环:没有不断更新的问题分布,自我改进很容易只是在固定 benchmark 上爬分。
但我不会把它解读成完整自动评估。第一,scientist 的 taste 会塑造发现空间,所以 ensemble scientist 很重要。第二,open-ended task 越开放,评分越依赖 judge,评价可信度就越需要人类校准或程序化约束。第三,当前主要是 single-turn text task,和长期 agent workflow 之间还有明显 gap。
One More Thing
如果把 ACD 和 FrontierSmith / ALE 放在同一张图里,它们其实在补同一个系统的不同边:FrontierSmith 生成开放式 coding problem,ACD 生成开放式 capability probes,ALE 固化真实专业工作流的 executable evaluation。未来更有价值的问题可能不是“哪个 benchmark 更难”,而是如何形成一个循环: