自动形式化与自动定理证明：Formal Reasoning Meets LLMs

这节课解决的不是同一个问题

上一讲 AlphaProof 展示了一个强系统：把问题放进 Lean，利用 proof assistant 的反馈做搜索和强化学习。这一讲 Kaiyu Yang 反过来问更基础的问题：为什么今天的 math/coding LLM 会成为能力竞赛中心？为什么只靠自然语言数学训练还不够？LLM 如何与 Lean 这样的形式系统结合成为 theorem prover？以及最难的，如何把非形式数学忠实地转换成形式数学？

因此这节课可以理解成 AlphaProof 的前置层和泛化层。AlphaProof 偏向“已有形式化问题以后，如何证明”；本讲覆盖“如何训练 theorem prover、如何评估 prover、如何自动形式化 theorem/proof、如何处理几何图形中的隐含推理”。

数学和代码是复杂推理与规划的代理任务，同时相对可评估。图源：官方
slides p.6。 — 数学和代码是复杂推理与规划的代理任务，同时相对可评估。图源：官方 slides p.6。

本章小结

这节课不是 AlphaProof 的重复，而是把“AI + formal math”的问题拆开：先看现代 math LLM 的训练路径，再看形式推理为什么是缺失环节，最后落到 theorem proving 与 autoformalization 两条技术线。

现代 Math LLM：SFT、RL 与可验证性

Yang 首先解释当前 LLM 数学能力竞赛的背景。OpenAI、Google、xAI 等模型发布时，经常突出 AIME、IMO、Codeforces 等数学和代码指标。原因不是这些任务覆盖了所有智能，而是它们既需要推理和规划，又比写小说、作曲等任务更容易定义评价标准。

SFT：好数据非常关键

监督微调的路径可以概括为：预训练模型先吸收文本和代码，再用数学网页、分步解题数据、工具集成解法等数据做后训练。这个路径的优势是直接、稳定、工程上成熟；限制是高度依赖数据质量和覆盖面。slides 提到公开数学数据集的规模可达约 900K，但高级数学、研究数学和高质量 proof 数据仍然稀缺。

数学 LLM 的两条常见训练口号：SFT 是“好数据很重要”，RL
是“可验证性很重要”。图源：官方 slides p.7。 — 数学 LLM 的两条常见训练口号：SFT 是“好数据很重要”，RL 是“可验证性很重要”。图源：官方 slides p.7。

RL：可验证题目让训练信号变硬

RL 路径的关键是 verifiable problems。如果题目有可检查答案，系统可以采样多个解法，只要最终答案正确就给奖励；对代码任务，可以跑 unit tests；对某些数学题，可以检查答案或用工具验证。这个思路解释了为什么 math/coding 任务在后训练中非常有吸引力。

但这也暴露出一个边界：答案正确不等于证明正确。对 pre-college math 或竞赛答案题，验证答案常常够用；对高级数学和证明写作，真正需要验证的是推理结构，而不是一个数值答案。

强数学 LLM 通常来自强预训练模型加 SFT/RL
后训练；但这并不自动解决证明能力。图源：官方 slides p.23。 — 强数学 LLM 通常来自强预训练模型加 SFT/RL 后训练；但这并不自动解决证明能力。图源：官方 slides p.23。

本章小结

SFT 和 RL 解释了当前数学 LLM 的快速进步：一个依赖高质量数据，一个依赖硬反馈。但它们在高级数学和证明任务上会遇到数据稀缺、推理不可直接验证、动作空间巨大等问题。这正是 formal reasoning 出场的原因。

为什么 LLM Alone 不够

Yang 用两类 gap 说明普通 math LLM 的不足。第一，从 pre-college math 到 advanced math。已有成功更多集中在 AIME、IMO 等竞赛任务，研究数学的数据更少、结构更开放。第二，从 guessing answers 到 writing proofs。模型可能给出正确答案或看似合理的证明，但证明是否有效仍需要形式检查。

LLM alone 的限制：数据稀缺、验证不足、动作空间巨大。图源：官方
slides p.29。 — LLM alone 的限制：数据稀缺、验证不足、动作空间巨大。图源：官方 slides p.29。

缺失环节：Formal Reasoning

本讲给出的立场是：缺失环节是 formal reasoning，即把数学推理锚定在 Lean、Coq、Isabelle 等形式系统中。形式系统让 theorem/proof 变成机器可检查对象，并且可以在 proof search 过程中给出局部反馈。

形式推理被提出为 AI for mathematics 的新前沿。图源：官方 slides
p.31。 — 形式推理被提出为 AI for mathematics 的新前沿。图源：官方 slides p.31。

Lean：把数学写成可检查程序

slides 用 Lean 文件展示 formalizing mathematics：一个 theorem statement、上下文、目标、proof tree、project 和依赖库共同构成形式证明环境。Lean 不是一个普通语法格式，而是一个交互式证明环境。模型要做 theorem proving，就需要在这个环境里选择下一步 tactic 或生成完整 proof。

Lean 中的形式化数学：文件、局部上下文、目标和 proof tree
共同构成证明环境。图源：官方 slides p.33。 — Lean 中的形式化数学：文件、局部上下文、目标和 proof tree 共同构成证明环境。图源：官方 slides p.33。

本章小结

LLM alone 的问题不是模型完全不会数学，而是缺少足够可靠的推理核验和结构化交互环境。形式系统提供了这个环境，使 theorem proving 可以被训练、搜索和评估。

LLM 做自动定理证明

自动定理证明在这节课中主要指：给定一个形式化 theorem 和当前 Lean proof state，模型生成下一步 tactic 或完整 proof，并与 Lean 交互直到证明完成。这里最重要的概念是“交互式证明”：模型不是一次性写完自然语言证明，而是在 proof assistant 中逐步推进。

LLM theorem prover 可以生成下一步 tactic，也可以生成完整
proof。图源：官方 slides p.43。 — LLM theorem prover 可以生成下一步 tactic，也可以生成完整 proof。图源：官方 slides p.43。

LeanDojo：开放数据、工具和基准

Yang 介绍 LeanDojo，是因为早期很多 LLM prover 是私有系统，难以复现和比较。LeanDojo 提供开源的数据、训练/评估基准、模型 checkpoint，以及从 Lean 项目中抽取数据和与 Lean 交互的工具。slides 中给出的 LeanDojo Benchmark 包含 98,641 个 theorem/proof、217,639 个 tactic、129,162 个 premise。

LeanDojo 为 Lean theorem proving
提供开放数据、模型和交互工具。图源：官方 slides p.46。 — LeanDojo 为 Lean theorem proving 提供开放数据、模型和交互工具。图源：官方 slides p.46。

ReProver：检索增强 theorem prover

ReProver 的核心思想是：给定当前 proof state，从所有可访问 premises 中检索相关前提，把检索结果和 state 拼接后用于 tactic generation。这里的检索不是普通 RAG 的装饰，而是在 formal proof 中缩小可用知识空间。一个证明状态可调用的 lemma 太多，如果不检索，模型很难在巨大库中找到合适工具。

ReProver：根据当前 state 检索可访问 premise，再生成
tactic。图源：官方 slides p.50。 — ReProver：根据当前 state 检索可访问 premise，再生成 tactic。图源：官方 slides p.50。

典型 neural theorem prover 的结构

一个典型 neural theorem prover 可以概括为：从 theorem 出发，维护 proof search tree；每个节点是 Lean state；模型根据 state 和检索到的 premises 生成 tactic；Lean 执行 tactic 后返回新 state；搜索策略决定继续扩展哪个节点。

典型 neural theorem prover：proof search、tactic
generation、Lean interaction 和 formal library 结合。图源：官方
slides p.55。 — 典型 neural theorem prover：proof search、tactic generation、Lean interaction 和 formal library 结合。图源：官方 slides p.55。

本章小结

LLM theorem proving 的关键不是让模型“像人一样写证明”，而是让模型成为 proof search 中的策略组件。LeanDojo 提供开放环境，ReProver 展示检索如何缩小知识空间，Lean 交互则提供可靠反馈。

动作空间问题：从无限搜索到领域约束

Yang 接着指出 theorem proving 的一个核心限制：动作空间巨大，甚至可以说近似无限。围棋虽然复杂，但棋盘和合法动作有限；数学证明中的 tactic、lemma、变形、定义展开、构造选择和中间命题几乎无穷。人类数据无法均匀覆盖这个空间，RL 探索也会变得困难。

LIPS：用领域结构约束不等式证明

为了解释如何缩小动作空间，讲座介绍 LIPS，即 LLM-based Inequality Prover with Symbolic Reasoning。它面向 Olympiad-level inequalities，把不等式证明中的步骤分成更有结构的类型，例如 rewriting 和 scaling，并让 LLM 与 symbolic tools 分工：LLM 负责提出重写方向，符号工具负责缩放或验证相关变换。

不等式证明展示了巨大动作空间：可能的变形、引理和中间不等式非常多。图源：官方
slides p.58。 — 不等式证明展示了巨大动作空间：可能的变形、引理和中间不等式非常多。图源：官方 slides p.58。

LIPS 在 Olympiad-level inequalities 上的结果：20 题中解决 16
题。图源：官方 slides p.64。 — LIPS 在 Olympiad-level inequalities 上的结果：20 题中解决 16 题。图源：官方 slides p.64。

本章小结

自动定理证明的难点不只是“模型聪不聪明”，还包括如何组织搜索空间。LIPS 的启发是：在特定数学领域里引入符号工具和领域动作，可以把不可搜索的问题变得可搜索。

Autoformalization：从 informal 到 formal

自动形式化是本讲后半段的重心。slides 区分了两类任务：

Theorem autoformalization：informal theorem \(\rightarrow\) formal theorem。
Proof autoformalization：informal theorem/proof + formal theorem \(\rightarrow\) formal proof。

Autoformalization
的基本问题：把非形式数学转换成形式数学。图源：官方 slides
p.68。 — Autoformalization 的基本问题：把非形式数学转换成形式数学。图源：官方 slides p.68。

为什么 theorem autoformalization 难评估

定理自动形式化最棘手的问题是：没有可靠自动评价。一个生成的 Lean statement 可以通过语法检查，也可能类型正确，但它是否和原始自然语言 theorem 等价，并不容易自动判断。理论上可以做 equivalence checking：证明两个 theorem 互相推出。但一般情况下这不可行，因为你又回到了 theorem proving 本身。

自动形式化 theorem
难以自动评估：语法通过不代表语义等价。图源：官方 slides
p.72。 — 自动形式化 theorem 难以自动评估：语法通过不代表语义等价。图源：官方 slides p.72。

人工评价又昂贵，尤其当 statement 涉及复杂定义、隐含条件或领域约定时。于是 autoformalization 研究中常见的通过率、类型检查率、BLEU/相似度等指标都只能反映一部分，不足以证明忠实性。

为什么 proof autoformalization 难

proof autoformalization 的主要困难是 informal proofs 有 reasoning gaps。自然语言证明常写“显然”“类似可得”“留给读者”，也依赖读者从图形、上下文或常识补全细节。形式证明必须 gap-free，所有隐含步骤都要展开到 proof assistant 能检查的程度。

自动形式化的两个核心挑战：theorem 难评价，proof 充满 reasoning
gaps。图源：官方 slides p.78。 — 自动形式化的两个核心挑战：theorem 难评价，proof 充满 reasoning gaps。图源：官方 slides p.78。

本章小结

Autoformalization 不是把英文变成 Lean 的机器翻译。它涉及语义等价、隐含条件、证明缺口、库定义选择和领域表示。它是 ATP 的前置环节，也是最容易隐藏错误的环节。

欧几里得几何：图形推理与隐含缺口

Yang 用 Euclidean geometry 展示 autoformalization 的困难，因为几何是人类和机器智能的经典 arena，也因为几何证明高度依赖 diagrammatic reasoning。讲座介绍 LeanEuclid：一个用于自动形式化欧几里得几何的 benchmark，包含来自 Euclid’s Elements 和 UniGeo 的问题。

LeanEuclid：面向欧几里得几何自动形式化的 benchmark。图源：官方
slides p.81。 — LeanEuclid：面向欧几里得几何自动形式化的 benchmark。图源：官方 slides p.81。

逻辑缺口：图上看见的不等于 Lean 知道

几何证明常依赖图。人看到两个圆相交、点在某条线上、三角形方向关系，就自然补全了许多事实。但 Lean 不看图，也不会自动知道“这个点在这个区域”“这两个对象按图形位置相交”。形式化时，必须把这些关系显式写出来，或用可证明的构造替代图形直觉。

讲座用 Euclid’s Elements Book I Proposition 24 说明：非形式证明里存在多个隐含步骤，形式化时必须补出等腰三角形、角相等、角大小关系等推理。图形帮助人理解，但机器需要逻辑对象。

等价检查与符号引擎

对于几何 theorem，讲座还介绍了 theorem equivalence checking：两个 theorem 等价，当且仅当可以证明 \(T_1 \Leftrightarrow T_2\)。在特定几何设置中，可以借助 SMT solver 等符号推理引擎做一部分检查。这是把一般不可行的问题放到特定领域里变得可处理的例子。

Theorem equivalence
checking：在特定形式系统和符号推理引擎中检查两个 theorem
是否等价。图源：官方 slides p.98。 — Theorem equivalence checking：在特定形式系统和符号推理引擎中检查两个 theorem 是否等价。图源：官方 slides p.98。

Diagrammatic reasoning 如何形式化

slides 提到 Formal System E，用于刻画 Euclid’s Elements 中的图形推理。核心思想是：图形推理可以被当成逻辑规则建模，并与 SMT solver 结合。这样，几何图上的某些“看得见”的关系可以转化成形式系统内的可推理对象。

Formal System E：把欧几里得几何中的 diagrammatic reasoning
建模为逻辑规则。图源：官方 slides p.105。 — Formal System E：把欧几里得几何中的 diagrammatic reasoning 建模为逻辑规则。图源：官方 slides p.105。

本章小结

欧几里得几何显示了 autoformalization 的本质困难：人类证明依赖大量未显式写出的图形事实，而形式证明要求这些事实全部进入逻辑系统。解决几何，需要把图形推理、符号推理和 Lean formalization 放在同一条管线里。

把两条线合起来

到这里，本讲的两条线可以合并：

Informal theorem 自然语言题面和证明

Autoformalization 生成 formal theorem

ATP / Prover 检索、搜索、生成 tactic

Lean feedback 检查 proof state

Equivalence / gaps 修复语义和证明缺口

Theorem proving 需要形式化输入；autoformalization 需要可靠评价；评价又常常需要 theorem proving 或领域符号系统。这就是为什么这个方向不能被拆成一个简单的“翻译模型”和一个“证明模型”。它更像一条闭环系统：生成、检索、证明、验证、修复互相依赖。

讲座 takeaways：autoformalization 的 theorem 评价和 proof gap
是核心挑战，可借助特定领域知识处理。图源：官方 slides
p.113。 — 讲座 takeaways：autoformalization 的 theorem 评价和 proof gap 是核心挑战，可借助特定领域知识处理。图源：官方 slides p.113。

本章小结

本讲最后给出的 takeaways 很克制：autoformalized theorems 很难评价，autoformalizing proofs 需要填补 ubiquitous reasoning gaps；这两者可以借助特定领域知识处理，但开放问题是如何跨领域泛化。

总结与延伸

这节课的实用价值在于，它把“LLM 做数学”拆成了可操作的研究接口。SFT/RL 提供当前 math LLM 的基础；formal reasoning 提供更强验证层；LeanDojo/ReProver 展示 neural theorem prover 的数据、检索和交互结构；LIPS 展示领域约束如何缩小动作空间；autoformalization 和 LeanEuclid 展示自然语言/图形数学进入形式系统时的语义风险。

从后续工作角度，最重要的结论有五个：

答案可验证不是证明可验证：普通 math RL 的奖励信号不足以覆盖高级证明。
ATP 是系统工程：模型、检索、proof search、Lean 交互和库依赖共同决定结果。
动作空间必须被结构化：领域工具和符号推理能把无限搜索空间变窄。
Autoformalization 的核心是忠实性：可编译 statement 不是成功，语义等价才是关键。
几何暴露了隐含推理：diagrammatic reasoning 是从人类证明到形式证明时必须处理的难点。

建议继续追踪的问题

如何构造比 type-check 更强、比人工评审更便宜的 autoformalization 评价？
ReProver 式 premise retrieval 在不同数学领域的瓶颈是什么？
LIPS 的领域动作分解能否迁移到组合、数论、拓扑等领域？
几何中的 diagrammatic reasoning 能否作为多模态 formal reasoning 的通用测试场？
AlphaProof 的 test-time RL 如何和本讲的 LeanDojo/ReProver/autoformalization 管线合并？

拓展阅读

课程主页：Berkeley CS294/194-280 Advanced Large Language Model Agents, Spring 2025
讲座 slides：Formal Reasoning Meets LLMs: Towards AI for Mathematics and Verification
视频：Berkeley RDI YouTube recording

作者线：cnfjlhj & Codex。内容依据 Berkeley CS294/194-280 Advanced Large Language Model Agents, Spring 2025 的公开课程视频、slides 以及本地生成的 PDF/TeX 学习笔记整理。

Autoformalization / ATP 的闭环

这节课解决的不是同一个问题

本章小结

现代 Math LLM：SFT、RL 与可验证性

SFT：好数据非常关键

RL：可验证题目让训练信号变硬

本章小结

为什么 LLM Alone 不够

缺失环节：Formal Reasoning

Lean：把数学写成可检查程序

本章小结

LLM 做自动定理证明

LeanDojo：开放数据、工具和基准

ReProver：检索增强 theorem prover

典型 neural theorem prover 的结构

本章小结

动作空间问题：从无限搜索到领域约束

LIPS：用领域结构约束不等式证明

本章小结

Autoformalization：从 informal 到 formal

为什么 theorem autoformalization 难评估

为什么 proof autoformalization 难

本章小结

欧几里得几何：图形推理与隐含缺口

逻辑缺口：图上看见的不等于 Lean 知道

等价检查与符号引擎

Diagrammatic reasoning 如何形式化

本章小结

把两条线合起来

本章小结

总结与延伸

建议继续追踪的问题

拓展阅读