Automated Capability Discovery via Foundation Model Self-Exploration

先给结论

这篇论文最值得看的一点，不是“又做了一个 benchmark”，而是把 benchmark 生成本身改成了 open-ended search：让一个 foundation model 扮演 scientist，持续提出 task family，再让 subject model 去做、评分、过滤、聚类，最后产出能力报告。

5,000GPT-4o 自探索实验的 generation 数。

1,330通过 “interestingly new” 过滤的 GPT-4o task instances。

25GPT-4o 自探索后得到的高层 task clusters。

我会把它放在 self-evolving agent 的 agent evaluation 类目下。它关心的不是 agent 训练本身，而是自动发现模型能力边界：什么任务值得测、哪些失败模式被静态 benchmark 漏掉、一个 scientist model 的探索偏好会怎样影响最终 capability signature。

论文 Figure 1：ACD 把人类用 gotcha question 探测模型的过程形式化为 scientist model 对 subject model 的开放式任务发现。

研究动机

传统 benchmark 的核心问题是“人先定义类别，模型再答题”。这会带来三个明显漏洞：任务设计越来越贵；类别边界固定，难覆盖 unknown unknowns；模型进步后容易 saturate 或被过拟合。ACD 的出发点是把“发现该测什么”也自动化。

论文沿用了 open-ended discovery 的思路：不要只优化一个固定 objective，而是维护一个不断增长的 archive，让系统持续生成新 artifact。这里的 artifact 不是机器人形态、环境或 loss，而是可执行的 task family。每个 family 能生成多个具体 instance，并带有指令与评分函数。

scientist model：提出任务、修复任务、判断 novelty
subject model：被测模型，可与 scientist 相同
archive：保存已发现任务族与结果
judge：程序化检查或 LLM judge
report：把 cluster 级结果压缩成人类可读报告

数学表示及建模

可以把 ACD 看成一个 archive-conditioned generation loop。第 \(t\) 轮从已有 archive \(\mathcal{A}_{t-1}\) 采样上下文 \(C_{t-1}\)，scientist 生成候选 task family \(f_t\)，subject 在 family 产生的 instances 上作答，系统得到评分和元数据后再决定是否写入 archive。

\[ f_t \sim M_{\mathrm{scientist}}(C_{t-1}),\quad y_t \sim M_{\mathrm{subject}}(x_t),\quad \mathcal{A}_t = \mathcal{A}_{t-1} \cup \{f_t\}\;\text{if interestingly-new}(f_t, \mathcal{A}_{t-1}). \]

这里最关键的不是公式，而是 object boundary：任务不是自然语言问题列表，而是一个可生成 instance、可给指令、可评分的 Python-style family。这样才有可能在大规模自动探索时保持相对稳定的执行与评分接口。

可程序化评分例如 exact string、数学答案、结构化输出；优点是确定，缺点是覆盖面有限。

LLM judge 评分用于创意写作、开放式推理等任务；覆盖面更广，但必须用人类评估校准偏差。

算法流程 / 方法

1

Seed archive。从简单 task family 开始，给 scientist 一个最小可行格式，而不是一开始就要求复杂 benchmark。

2

Propose and repair。scientist 生成新的 task family，并通过自我反思、subject 试做、错误反馈进行修复，避免代码不可运行或任务太显然。

3

Evaluate subject。subject 对 instances 作答；系统记录成功、失败、估计难度、能力标签和评分证据。

4

Novelty / interestingness filter。候选 family 需要相对 archive 有足够新意，并且能揭示能力或失败模式，才进入 archive。

5

Embedding, clustering, report。对任务做 embedding，t-SNE/HDBSCAN 可视化与聚类，再让 scientist 汇总 capability report。

边界要说清楚。ACD 自动化了“提出任务、执行、评分、聚类、生成报告”的大部分流程，但 surprisingness 的人工挑选、LLM judge 的偏差、single-turn text-only 任务范围，仍然限制了它离完整安全评估或完整 agent 评估还有距离。

实验设计

论文主要跑了三类组合：GPT-4o 既做 scientist 又做 subject；GPT-4o 做 scientist 探测 Llama3-8B；Claude Sonnet 3.5 做 scientist 探测 GPT-4o。这样可以分别观察自探索、换 subject、换 scientist 后的差异。

实验设置	核心目的	论文报告的关键结果
GPT-4o scientist / GPT-4o subject	看同一模型能否自探索自己的能力边界。	5,000 generations；1,330 interestingly new tasks；25 high-level clusters。
GPT-4o task archive 重测 Llama3-8B	看同一任务库能否形成跨模型比较。	Llama3-8B 表现近似 GPT-4o 的能力子集，在多步逻辑和结构化工作流上差距更大。
Sonnet 3.5 scientist / GPT-4o subject	看 scientist 的风格是否改变发现空间。	2,873 interestingly new tasks；46 clusters；更多抽象、跨学科、创意型任务。

论文 Figure 2：GPT-4o 自探索生成的 task embedding，可视化为 25 个高层任务簇。

论文人类评估图：自动生成任务大多被判断为 clear and valid，LLM judge 与人类判断总体一致但有正偏。

论文跨模型雷达图：用 GPT-4o 发现的 task archive 评估 Llama3-8B，可观察不同任务簇上的能力差。

实验结果

我认为最重要的结果不是某个 cluster 的 pass rate，而是 ACD 确实产生了“能力签名”：同一个 scientist-subject 设置下，多次运行会得到相对稳定的任务分布；换 subject 后，archive 可以暴露弱模型在哪些类别上失败；换 scientist 后，发现空间明显改变。

可持续发现。论文报告即使到 5,000 generations 后，新候选中仍有约 20% 被认为 interestingly new，说明探索没有很快耗尽。

judge 仍是瓶颈。人评显示自动评分与人类有较高一致性，但非常困难任务上 F1 下降，且 false positive 更明显。

论文 scientist 对比图：GPT-4o 与 Sonnet 3.5 作为 scientist 时，对同一 GPT-4o subject 发现的任务分布不同。

论文 Sonnet scientist 聚类图：Sonnet 3.5 发现 2,873 个 interestingly new tasks，并形成 46 个 clusters。

论文 report thumbnail：ACD 将大量任务簇和样例压缩为 capability report，供人类快速审查。

我的评论

这篇非常贴近 self-evolving / open-endedness 线索。它没有直接训练一个更强 agent，而是在构造一个能持续发现“该训练什么、该测什么”的机制。对于 self-improving 系统，这类 capability discovery 可能是内环之外的关键外环：没有不断更新的问题分布，自我改进很容易只是在固定 benchmark 上爬分。

但我不会把它解读成完整自动评估。第一，scientist 的 taste 会塑造发现空间，所以 ensemble scientist 很重要。第二，open-ended task 越开放，评分越依赖 judge，评价可信度就越需要人类校准或程序化约束。第三，当前主要是 single-turn text task，和长期 agent workflow 之间还有明显 gap。

One More Thing

如果把 ACD 和 FrontierSmith / ALE 放在同一张图里，它们其实在补同一个系统的不同边：FrontierSmith 生成开放式 coding problem，ACD 生成开放式 capability probes，ALE 固化真实专业工作流的 executable evaluation。未来更有价值的问题可能不是“哪个 benchmark 更难”，而是如何形成一个循环：

\[ \text{discover failures} \rightarrow \text{generate training tasks} \rightarrow \text{adapt agent} \rightarrow \text{evaluate on held-out workflows} \rightarrow \text{discover new failures}. \]

Reference / Evidence

arXiv:2502.07577v2 论文页：Automated Capability Discovery via Foundation Model Self-Exploration。 原版 PDF 本页阅读边界对应用户指定的 v2 PDF。 ACD GitHub 作者公开的代码与 evaluation logs 仓库。