先给结论
ALE 的野心是把 agent benchmark 从“会不会解题 / 会不会用浏览器”推进到“能不能完成真实、长程、专业、可验证的数字工作流”。它把任务构建、执行环境、agent harness 和评分协议一起定义,而不是只发布一组问答题。
研究动机
论文的判断很直接:AI 在很多 benchmark 上进步很快,但这种胜利并没有等比例转化成经济生产力。作者把问题归因到 evaluation surface:现有 benchmark 往往太短、太抽象、太窄,或者输出无法稳定自动评分。
ALE 试图补三个缺口:任务来自真实专业实践;覆盖非物理的数字行业工作流;输出必须能通过 deterministic checks 或 structured rubrics 验证,而不是靠开放式人工印象打分。
- 真实专业 workflow
- 长程 computer-use
- GUI + CLI + files + web
- 专家提交与 QC
- 可执行 task specification
- 公开/私有 rolling evaluation
数学表示及建模
ALE 的基本对象不是 question,而是 runnable task instance。一个 instance 可以理解为五元组:描述、输入资产、目标软件、参考资产、评价函数。agent 只看到任务描述与可操作环境,reference 只在评分阶段可用。
这个定义的关键在于 uncoupling:task specification、agent、environment 三者可以替换。这样 ALE 既能比较不同模型,也能比较不同 harness;也能把同一任务放到云 VM 或本地容器中运行。
算法流程 / 方法
实验设计
论文把公开评测任务分成三档:Near-Term、Full-Spectrum、Last-Exam。因为一次 frontier agent 跑一个 ALE task 平均花费约 3 到 10 美元,并且可能需要几十分钟到数小时,所以分层本身就是 benchmark 设计的一部分。
| 难度层 | 任务数 | 设计目的 | 论文给出的定位 |
|---|---|---|---|
| Near-Term | 59 | 当前 frontier agents 可以部分完成。 | 适合短期 leaderboard 与快速迭代。 |
| Full-Spectrum | 55 | 覆盖所有 55 个 subdomains。 | 用于综合覆盖评价。 |
| Last-Exam | 36 | 最难的 workflow。 | 多数 agents 0% pass,适合 milestone evaluation。 |
实验覆盖 mainstream agent harnesses、固定 harness 的 model sweep、固定 backbone 的 harness sweep,以及 Linux-only 的 ALE-CLI 子集。注意:表中的 GPT-5.5、GPT-5.4、Opus 4.7 等均是论文报告的实验标签。
实验结果
主表最醒目的结果是:最强配置也远未饱和。论文报告 Codex (GPT-5.5) 在 mainstream GCUA harnesses 中 overall pass rate 为 26.2%,Near-Term 为 42.4%,Full-Spectrum 为 20.0%,Last-Exam 为 8.6%。ALE-Claw (GPT-5.5) overall 为 24.2%。Codex (GPT-5.4) overall 为 7.4%。
| 配置 | Near-Term Pass | Full-Spectrum Pass | Last-Exam Pass | Overall Pass |
|---|---|---|---|---|
| Codex (GPT-5.5) | 42.4% | 20.0% | 8.6% | 26.2% |
| ALE-Claw (GPT-5.5) | 35.6% | 21.8% | 8.6% | 24.2% |
| Cursor (GPT-5.5) | 36.4% | 20.0% | 2.9% | 22.5% |
| Claude Code (Sonnet 4.6) | 31.4% | 12.7% | 0.0% | 17.1% |
| Codex (GPT-5.4) | 15.3% | 3.6% | 0.0% | 7.4% |
我的评论
ALE 的价值在于它把“agent 是否真的能干活”拆成了可执行定义:环境、工具、产物、reference、score。它比单纯问答 benchmark 更接近真实部署,也比纯 GUI benchmark 更接近当前 coding agent / computer-use agent 的混合能力边界。
但这类 benchmark 的风险也很明显。第一,构建成本极高,任务池维护会长期依赖专家与工程 QC。第二,公开任务只是一小部分,私有任务池与 rolling evaluation 的治理会影响外部可复现性。第三,经济任务覆盖仍然是“软件介导的数字工作流”,不是所有 GDP 相关劳动。
One More Thing
ALE 和 ACD 刚好形成互补:ACD 负责自动发现模型能力边界,ALE 负责把真实专业工作流变成可验证评测。如果要研究 self-improving agents,我更关心两者之间能否形成闭环:用 ACD-style search 发现失败模式,用 FrontierSmith-style generation 扩展训练题,用 ALE-style workflow 做 held-out 验收。