Agents' Last Exam

先给结论

ALE 的野心是把 agent benchmark 从“会不会解题 / 会不会用浏览器”推进到“能不能完成真实、长程、专业、可验证的数字工作流”。它把任务构建、执行环境、agent harness 和评分协议一起定义，而不是只发布一组问答题。

1,490论文宏定义中的 task instances 总量。

55覆盖的 digital industry subdomains。

2.6%论文摘要报告 hardest tier 的平均 full pass rate。

为什么它应该放在 agent evaluation 类目。它评价的不是单个模型答题能力，而是 Generalist Computer-Use Agent 在真实软件、GUI/CLI 混合、长时任务、异构产物评分下的可执行工作能力。

论文 teaser：ALE 覆盖广泛的专业任务 taxonomy 和真实 workflow 场景。

研究动机

论文的判断很直接：AI 在很多 benchmark 上进步很快，但这种胜利并没有等比例转化成经济生产力。作者把问题归因到 evaluation surface：现有 benchmark 往往太短、太抽象、太窄，或者输出无法稳定自动评分。

ALE 试图补三个缺口：任务来自真实专业实践；覆盖非物理的数字行业工作流；输出必须能通过 deterministic checks 或 structured rubrics 验证，而不是靠开放式人工印象打分。

真实专业 workflow
长程 computer-use
GUI + CLI + files + web
专家提交与 QC
可执行 task specification
公开/私有 rolling evaluation

论文 taxonomy 分布图：1,490 个 task instances 横跨 55 个 subdomains 与 13 个 top-level domains。

数学表示及建模

ALE 的基本对象不是 question，而是 runnable task instance。一个 instance 可以理解为五元组：描述、输入资产、目标软件、参考资产、评价函数。agent 只看到任务描述与可操作环境，reference 只在评分阶段可用。

\[ \tau = (d, x, \mathcal{S}, r, e),\quad a \sim \pi_{\mathrm{harness}+\mathrm{model}}(d, x, \mathcal{E}),\quad s = e(a, r) \in [0,1],\quad \mathrm{pass} = \mathbf{1}[s=1]. \]

这个定义的关键在于 uncoupling：task specification、agent、environment 三者可以替换。这样 ALE 既能比较不同模型，也能比较不同 harness；也能把同一任务放到云 VM 或本地容器中运行。

论文 task specification 图：每个 instance 通过 load/start/evaluate 生命周期连接 agent、环境和隐藏 reference。

算法流程 / 方法

1

专家 sourcing。行业专家提交真实做过的项目或 workflow，而不是由非专业众包工人凭空编题。

2

五组件 task spec。任务必须说明 natural-language description、input files、target software、expected deliverable、evaluation specification。

3

多轮 review 与实现。提交经过 first-pass review、工程实现、dry-run、专家委员会 final QC，才进入 benchmark。

4

GCUA agent harness。评价对象是能同时具备 Brain、Eyes、Body、Hands、Feet 的 Generalist Computer-Use Agent；CLI-only 或 GUI-only 都不完整。

5

artifact-grounded scoring。评分优先用 deterministic checks；必须用 LLM judge 时，也限制为 narrow, evidence-anchored probes。

论文任务构建流程图：从 expert outreach 到 task implementation，再到 QC committee review。

论文 agent capability taxonomy：GCUA 需要 Brain、Eyes、Body、Hands、Feet 五层能力。

论文典型 GCUA harness 架构：主循环、prompt builder、tool system、sub-agents、context compaction manager 共同组成现代 agent harness。

实验设计

论文把公开评测任务分成三档：Near-Term、Full-Spectrum、Last-Exam。因为一次 frontier agent 跑一个 ALE task 平均花费约 3 到 10 美元，并且可能需要几十分钟到数小时，所以分层本身就是 benchmark 设计的一部分。

难度层	任务数	设计目的	论文给出的定位
Near-Term	59	当前 frontier agents 可以部分完成。	适合短期 leaderboard 与快速迭代。
Full-Spectrum	55	覆盖所有 55 个 subdomains。	用于综合覆盖评价。
Last-Exam	36	最难的 workflow。	多数 agents 0% pass，适合 milestone evaluation。

实验覆盖 mainstream agent harnesses、固定 harness 的 model sweep、固定 backbone 的 harness sweep，以及 Linux-only 的 ALE-CLI 子集。注意：表中的 GPT-5.5、GPT-5.4、Opus 4.7 等均是论文报告的实验标签。

实验结果

主表最醒目的结果是：最强配置也远未饱和。论文报告 Codex (GPT-5.5) 在 mainstream GCUA harnesses 中 overall pass rate 为 26.2%，Near-Term 为 42.4%，Full-Spectrum 为 20.0%，Last-Exam 为 8.6%。ALE-Claw (GPT-5.5) overall 为 24.2%。Codex (GPT-5.4) overall 为 7.4%。

配置	Near-Term Pass	Full-Spectrum Pass	Last-Exam Pass	Overall Pass
Codex (GPT-5.5)	42.4%	20.0%	8.6%	26.2%
ALE-Claw (GPT-5.5)	35.6%	21.8%	8.6%	24.2%
Cursor (GPT-5.5)	36.4%	20.0%	2.9%	22.5%
Claude Code (Sonnet 4.6)	31.4%	12.7%	0.0%	17.1%
Codex (GPT-5.4)	15.3%	3.6%	0.0%	7.4%

论文 domain-level mean score 图：GPT-5.5 与 Opus 4.7 的领域表现排序相似，部分专业领域仍明显较低。

论文 failure taxonomy 图：Claude Code + Opus 4.7 失败中，Understanding 与 Approach 类问题占主要部分。

论文 cost/performance 图：更高 token、成本或 wall-clock time 不稳定地转化为更高 pass rate。

论文 model vs harness effect 图：在 OpenClaw 固定时，model choice 带来的 pass rate spread 大于 harness choice spread。

我的评论

ALE 的价值在于它把“agent 是否真的能干活”拆成了可执行定义：环境、工具、产物、reference、score。它比单纯问答 benchmark 更接近真实部署，也比纯 GUI benchmark 更接近当前 coding agent / computer-use agent 的混合能力边界。

但这类 benchmark 的风险也很明显。第一，构建成本极高，任务池维护会长期依赖专家与工程 QC。第二，公开任务只是一小部分，私有任务池与 rolling evaluation 的治理会影响外部可复现性。第三，经济任务覆盖仍然是“软件介导的数字工作流”，不是所有 GDP 相关劳动。

不要过度解读。ALE 不是证明“这些 agents 已经能替代某行业”，也不是覆盖全部经济劳动。它更像一个严肃的测量仪器：如果未来 agents 能稳定通过这些长程、工具密集、专家构造的 workflow，才有理由把 benchmark 进展和真实经济影响联系得更紧。

One More Thing

ALE 和 ACD 刚好形成互补：ACD 负责自动发现模型能力边界，ALE 负责把真实专业工作流变成可验证评测。如果要研究 self-improving agents，我更关心两者之间能否形成闭环：用 ACD-style search 发现失败模式，用 FrontierSmith-style generation 扩展训练题，用 ALE-style workflow 做 held-out 验收。

\[ \text{open-ended probes} + \text{expert workflow benchmark} \Rightarrow \text{更接近真实效用的 agent adaptation loop}. \]

Reference / Evidence

arXiv:2606.05405 论文页：Agents' Last Exam。 原版 PDF 论文 PDF。 Project Website 论文给出的 ALE 项目站与 leaderboard 入口。 GitHub 论文给出的公开代码 / benchmark 仓库。 HuggingFace Dataset 论文给出的公开数据集入口。