← 科研空间 首页
Agent Evaluation arXiv / 2026-06-08

Agents' Last Exam

一个面向 Generalist Computer-Use Agent 的真实长程工作流 benchmark:专家提交任务,工程化为可执行实例,再用 deterministic checks 和 structured rubrics 评分。

先给结论

ALE 的野心是把 agent benchmark 从“会不会解题 / 会不会用浏览器”推进到“能不能完成真实、长程、专业、可验证的数字工作流”。它把任务构建、执行环境、agent harness 和评分协议一起定义,而不是只发布一组问答题。

1,490论文宏定义中的 task instances 总量。
55覆盖的 digital industry subdomains。
2.6%论文摘要报告 hardest tier 的平均 full pass rate。
为什么它应该放在 agent evaluation 类目。它评价的不是单个模型答题能力,而是 Generalist Computer-Use Agent 在真实软件、GUI/CLI 混合、长时任务、异构产物评分下的可执行工作能力。
论文 teaser:ALE 覆盖广泛的专业任务 taxonomy 和真实 workflow 场景。
论文 teaser:ALE 覆盖广泛的专业任务 taxonomy 和真实 workflow 场景。

研究动机

论文的判断很直接:AI 在很多 benchmark 上进步很快,但这种胜利并没有等比例转化成经济生产力。作者把问题归因到 evaluation surface:现有 benchmark 往往太短、太抽象、太窄,或者输出无法稳定自动评分。

ALE 试图补三个缺口:任务来自真实专业实践;覆盖非物理的数字行业工作流;输出必须能通过 deterministic checks 或 structured rubrics 验证,而不是靠开放式人工印象打分。

论文 taxonomy 分布图:1,490 个 task instances 横跨 55 个 subdomains 与 13 个 top-level domains。
论文 taxonomy 分布图:1,490 个 task instances 横跨 55 个 subdomains 与 13 个 top-level domains。

数学表示及建模

ALE 的基本对象不是 question,而是 runnable task instance。一个 instance 可以理解为五元组:描述、输入资产、目标软件、参考资产、评价函数。agent 只看到任务描述与可操作环境,reference 只在评分阶段可用。

\[ \tau = (d, x, \mathcal{S}, r, e),\quad a \sim \pi_{\mathrm{harness}+\mathrm{model}}(d, x, \mathcal{E}),\quad s = e(a, r) \in [0,1],\quad \mathrm{pass} = \mathbf{1}[s=1]. \]

这个定义的关键在于 uncoupling:task specification、agent、environment 三者可以替换。这样 ALE 既能比较不同模型,也能比较不同 harness;也能把同一任务放到云 VM 或本地容器中运行。

论文 task specification 图:每个 instance 通过 load/start/evaluate 生命周期连接 agent、环境和隐藏 reference。
论文 task specification 图:每个 instance 通过 load/start/evaluate 生命周期连接 agent、环境和隐藏 reference。

算法流程 / 方法

1
专家 sourcing。行业专家提交真实做过的项目或 workflow,而不是由非专业众包工人凭空编题。
2
五组件 task spec。任务必须说明 natural-language description、input files、target software、expected deliverable、evaluation specification。
3
多轮 review 与实现。提交经过 first-pass review、工程实现、dry-run、专家委员会 final QC,才进入 benchmark。
4
GCUA agent harness。评价对象是能同时具备 Brain、Eyes、Body、Hands、Feet 的 Generalist Computer-Use Agent;CLI-only 或 GUI-only 都不完整。
5
artifact-grounded scoring。评分优先用 deterministic checks;必须用 LLM judge 时,也限制为 narrow, evidence-anchored probes。
论文任务构建流程图:从 expert outreach 到 task implementation,再到 QC committee review。
论文任务构建流程图:从 expert outreach 到 task implementation,再到 QC committee review。
论文 agent capability taxonomy:GCUA 需要 Brain、Eyes、Body、Hands、Feet 五层能力。
论文 agent capability taxonomy:GCUA 需要 Brain、Eyes、Body、Hands、Feet 五层能力。
论文典型 GCUA harness 架构:主循环、prompt builder、tool system、sub-agents、context compaction manager 共同组成现代 agent harness。
论文典型 GCUA harness 架构:主循环、prompt builder、tool system、sub-agents、context compaction manager 共同组成现代 agent harness。

实验设计

论文把公开评测任务分成三档:Near-Term、Full-Spectrum、Last-Exam。因为一次 frontier agent 跑一个 ALE task 平均花费约 3 到 10 美元,并且可能需要几十分钟到数小时,所以分层本身就是 benchmark 设计的一部分。

难度层 任务数 设计目的 论文给出的定位
Near-Term 59 当前 frontier agents 可以部分完成。 适合短期 leaderboard 与快速迭代。
Full-Spectrum 55 覆盖所有 55 个 subdomains。 用于综合覆盖评价。
Last-Exam 36 最难的 workflow。 多数 agents 0% pass,适合 milestone evaluation。

实验覆盖 mainstream agent harnesses、固定 harness 的 model sweep、固定 backbone 的 harness sweep,以及 Linux-only 的 ALE-CLI 子集。注意:表中的 GPT-5.5、GPT-5.4、Opus 4.7 等均是论文报告的实验标签。

实验结果

主表最醒目的结果是:最强配置也远未饱和。论文报告 Codex (GPT-5.5) 在 mainstream GCUA harnesses 中 overall pass rate 为 26.2%,Near-Term 为 42.4%,Full-Spectrum 为 20.0%,Last-Exam 为 8.6%。ALE-Claw (GPT-5.5) overall 为 24.2%。Codex (GPT-5.4) overall 为 7.4%。

配置 Near-Term Pass Full-Spectrum Pass Last-Exam Pass Overall Pass
Codex (GPT-5.5) 42.4% 20.0% 8.6% 26.2%
ALE-Claw (GPT-5.5) 35.6% 21.8% 8.6% 24.2%
Cursor (GPT-5.5) 36.4% 20.0% 2.9% 22.5%
Claude Code (Sonnet 4.6) 31.4% 12.7% 0.0% 17.1%
Codex (GPT-5.4) 15.3% 3.6% 0.0% 7.4%
论文 domain-level mean score 图:GPT-5.5 与 Opus 4.7 的领域表现排序相似,部分专业领域仍明显较低。
论文 domain-level mean score 图:GPT-5.5 与 Opus 4.7 的领域表现排序相似,部分专业领域仍明显较低。
论文 failure taxonomy 图:Claude Code + Opus 4.7 失败中,Understanding 与 Approach 类问题占主要部分。
论文 failure taxonomy 图:Claude Code + Opus 4.7 失败中,Understanding 与 Approach 类问题占主要部分。
论文 cost/performance 图:更高 token、成本或 wall-clock time 不稳定地转化为更高 pass rate。
论文 cost/performance 图:更高 token、成本或 wall-clock time 不稳定地转化为更高 pass rate。
论文 model vs harness effect 图:在 OpenClaw 固定时,model choice 带来的 pass rate spread 大于 harness choice spread。
论文 model vs harness effect 图:在 OpenClaw 固定时,model choice 带来的 pass rate spread 大于 harness choice spread。

我的评论

ALE 的价值在于它把“agent 是否真的能干活”拆成了可执行定义:环境、工具、产物、reference、score。它比单纯问答 benchmark 更接近真实部署,也比纯 GUI benchmark 更接近当前 coding agent / computer-use agent 的混合能力边界。

但这类 benchmark 的风险也很明显。第一,构建成本极高,任务池维护会长期依赖专家与工程 QC。第二,公开任务只是一小部分,私有任务池与 rolling evaluation 的治理会影响外部可复现性。第三,经济任务覆盖仍然是“软件介导的数字工作流”,不是所有 GDP 相关劳动。

不要过度解读。ALE 不是证明“这些 agents 已经能替代某行业”,也不是覆盖全部经济劳动。它更像一个严肃的测量仪器:如果未来 agents 能稳定通过这些长程、工具密集、专家构造的 workflow,才有理由把 benchmark 进展和真实经济影响联系得更紧。

One More Thing

ALE 和 ACD 刚好形成互补:ACD 负责自动发现模型能力边界,ALE 负责把真实专业工作流变成可验证评测。如果要研究 self-improving agents,我更关心两者之间能否形成闭环:用 ACD-style search 发现失败模式,用 FrontierSmith-style generation 扩展训练题,用 ALE-style workflow 做 held-out 验收。

\[ \text{open-ended probes} + \text{expert workflow benchmark} \Rightarrow \text{更接近真实效用的 agent adaptation loop}. \]

Reference / Evidence