← 科研空间 首页
Capability Discovery arXiv v2 / 2026-06-08

Automated Capability Discovery via Foundation Model Self-Exploration

把“人类想题目测模型”的过程,改造成一个 open-ended archive search:scientist model 不断提出任务族,subject model 被测,系统再筛选、聚类、生成能力报告。

先给结论

这篇论文最值得看的一点,不是“又做了一个 benchmark”,而是把 benchmark 生成本身改成了 open-ended search:让一个 foundation model 扮演 scientist,持续提出 task family,再让 subject model 去做、评分、过滤、聚类,最后产出能力报告。

5,000GPT-4o 自探索实验的 generation 数。
1,330通过 “interestingly new” 过滤的 GPT-4o task instances。
25GPT-4o 自探索后得到的高层 task clusters。
我会把它放在 self-evolving agent 的 agent evaluation 类目下。它关心的不是 agent 训练本身,而是自动发现模型能力边界:什么任务值得测、哪些失败模式被静态 benchmark 漏掉、一个 scientist model 的探索偏好会怎样影响最终 capability signature。
论文 Figure 1:ACD 把人类用 gotcha question 探测模型的过程形式化为 scientist model 对 subject model 的开放式任务发现。
论文 Figure 1:ACD 把人类用 gotcha question 探测模型的过程形式化为 scientist model 对 subject model 的开放式任务发现。

研究动机

传统 benchmark 的核心问题是“人先定义类别,模型再答题”。这会带来三个明显漏洞:任务设计越来越贵;类别边界固定,难覆盖 unknown unknowns;模型进步后容易 saturate 或被过拟合。ACD 的出发点是把“发现该测什么”也自动化。

论文沿用了 open-ended discovery 的思路:不要只优化一个固定 objective,而是维护一个不断增长的 archive,让系统持续生成新 artifact。这里的 artifact 不是机器人形态、环境或 loss,而是可执行的 task family。每个 family 能生成多个具体 instance,并带有指令与评分函数。

数学表示及建模

可以把 ACD 看成一个 archive-conditioned generation loop。第 \(t\) 轮从已有 archive \(\mathcal{A}_{t-1}\) 采样上下文 \(C_{t-1}\),scientist 生成候选 task family \(f_t\),subject 在 family 产生的 instances 上作答,系统得到评分和元数据后再决定是否写入 archive。

\[ f_t \sim M_{\mathrm{scientist}}(C_{t-1}),\quad y_t \sim M_{\mathrm{subject}}(x_t),\quad \mathcal{A}_t = \mathcal{A}_{t-1} \cup \{f_t\}\;\text{if interestingly-new}(f_t, \mathcal{A}_{t-1}). \]

这里最关键的不是公式,而是 object boundary:任务不是自然语言问题列表,而是一个可生成 instance、可给指令、可评分的 Python-style family。这样才有可能在大规模自动探索时保持相对稳定的执行与评分接口。

可程序化评分例如 exact string、数学答案、结构化输出;优点是确定,缺点是覆盖面有限。
LLM judge 评分用于创意写作、开放式推理等任务;覆盖面更广,但必须用人类评估校准偏差。

算法流程 / 方法

1
Seed archive。从简单 task family 开始,给 scientist 一个最小可行格式,而不是一开始就要求复杂 benchmark。
2
Propose and repair。scientist 生成新的 task family,并通过自我反思、subject 试做、错误反馈进行修复,避免代码不可运行或任务太显然。
3
Evaluate subject。subject 对 instances 作答;系统记录成功、失败、估计难度、能力标签和评分证据。
4
Novelty / interestingness filter。候选 family 需要相对 archive 有足够新意,并且能揭示能力或失败模式,才进入 archive。
5
Embedding, clustering, report。对任务做 embedding,t-SNE/HDBSCAN 可视化与聚类,再让 scientist 汇总 capability report。
边界要说清楚。ACD 自动化了“提出任务、执行、评分、聚类、生成报告”的大部分流程,但 surprisingness 的人工挑选、LLM judge 的偏差、single-turn text-only 任务范围,仍然限制了它离完整安全评估或完整 agent 评估还有距离。

实验设计

论文主要跑了三类组合:GPT-4o 既做 scientist 又做 subject;GPT-4o 做 scientist 探测 Llama3-8B;Claude Sonnet 3.5 做 scientist 探测 GPT-4o。这样可以分别观察自探索、换 subject、换 scientist 后的差异。

实验设置 核心目的 论文报告的关键结果
GPT-4o scientist / GPT-4o subject 看同一模型能否自探索自己的能力边界。 5,000 generations;1,330 interestingly new tasks;25 high-level clusters。
GPT-4o task archive 重测 Llama3-8B 看同一任务库能否形成跨模型比较。 Llama3-8B 表现近似 GPT-4o 的能力子集,在多步逻辑和结构化工作流上差距更大。
Sonnet 3.5 scientist / GPT-4o subject 看 scientist 的风格是否改变发现空间。 2,873 interestingly new tasks;46 clusters;更多抽象、跨学科、创意型任务。
论文 Figure 2:GPT-4o 自探索生成的 task embedding,可视化为 25 个高层任务簇。
论文 Figure 2:GPT-4o 自探索生成的 task embedding,可视化为 25 个高层任务簇。
论文人类评估图:自动生成任务大多被判断为 clear and valid,LLM judge 与人类判断总体一致但有正偏。
论文人类评估图:自动生成任务大多被判断为 clear and valid,LLM judge 与人类判断总体一致但有正偏。
论文跨模型雷达图:用 GPT-4o 发现的 task archive 评估 Llama3-8B,可观察不同任务簇上的能力差。
论文跨模型雷达图:用 GPT-4o 发现的 task archive 评估 Llama3-8B,可观察不同任务簇上的能力差。

实验结果

我认为最重要的结果不是某个 cluster 的 pass rate,而是 ACD 确实产生了“能力签名”:同一个 scientist-subject 设置下,多次运行会得到相对稳定的任务分布;换 subject 后,archive 可以暴露弱模型在哪些类别上失败;换 scientist 后,发现空间明显改变。

可持续发现。论文报告即使到 5,000 generations 后,新候选中仍有约 20% 被认为 interestingly new,说明探索没有很快耗尽。
judge 仍是瓶颈。人评显示自动评分与人类有较高一致性,但非常困难任务上 F1 下降,且 false positive 更明显。
论文 scientist 对比图:GPT-4o 与 Sonnet 3.5 作为 scientist 时,对同一 GPT-4o subject 发现的任务分布不同。
论文 scientist 对比图:GPT-4o 与 Sonnet 3.5 作为 scientist 时,对同一 GPT-4o subject 发现的任务分布不同。
论文 Sonnet scientist 聚类图:Sonnet 3.5 发现 2,873 个 interestingly new tasks,并形成 46 个 clusters。
论文 Sonnet scientist 聚类图:Sonnet 3.5 发现 2,873 个 interestingly new tasks,并形成 46 个 clusters。
论文 report thumbnail:ACD 将大量任务簇和样例压缩为 capability report,供人类快速审查。
论文 report thumbnail:ACD 将大量任务簇和样例压缩为 capability report,供人类快速审查。

我的评论

这篇非常贴近 self-evolving / open-endedness 线索。它没有直接训练一个更强 agent,而是在构造一个能持续发现“该训练什么、该测什么”的机制。对于 self-improving 系统,这类 capability discovery 可能是内环之外的关键外环:没有不断更新的问题分布,自我改进很容易只是在固定 benchmark 上爬分。

但我不会把它解读成完整自动评估。第一,scientist 的 taste 会塑造发现空间,所以 ensemble scientist 很重要。第二,open-ended task 越开放,评分越依赖 judge,评价可信度就越需要人类校准或程序化约束。第三,当前主要是 single-turn text task,和长期 agent workflow 之间还有明显 gap。

One More Thing

如果把 ACD 和 FrontierSmith / ALE 放在同一张图里,它们其实在补同一个系统的不同边:FrontierSmith 生成开放式 coding problem,ACD 生成开放式 capability probes,ALE 固化真实专业工作流的 executable evaluation。未来更有价值的问题可能不是“哪个 benchmark 更难”,而是如何形成一个循环:

\[ \text{discover failures} \rightarrow \text{generate training tasks} \rightarrow \text{adapt agent} \rightarrow \text{evaluate on held-out workflows} \rightarrow \text{discover new failures}. \]

Reference / Evidence