2026 智源大会 · AI 自进化论坛

AI 自进化精读讲义:从 Recursive Self-Improvement 到可验证反馈闭环

八位讲者、一场圆桌,从计算底座、经验生成、记忆结构、多模态闭环、自我工程、因果世界理解到可验证评测——把整场论坛连成一条线。

频道:北京智源人工智能研究院 时长:04:27:53 讲义日期:2026-06-14
AI 自进化精读讲义:从 Recursive Self-Improvement 到可验证反馈闭环

整场论坛的八条主线

这场论坛虽然讲者很多,但并不是松散拼盘。它围绕"AI 怎样从被动训练走向自我驱动的持续改进"展开,形成了八条互相咬合的主线。

RSI边界计算底座经验生成记忆学习多模态闭环自我工程因果世界可验证评测

材料边界与阅读路线

证据边界

这份讲义的目标是把 2026 智源大会"AI 自进化 / AI with RSI"论坛整理成可独立阅读、可转发给他人的学习材料。它不是逐字稿,也不是只保留观点的短摘要,而是按"视频证据 -> 分段内容复原 -> 教学解释 -> 全局综合"的方式重建整场论坛。

本讲义使用四类证据:

  • 视频证据source/replay.mp4,画面含现场幻灯片、嘉宾发言与烧录在画面底部的讯飞同传字幕。
  • ASR 底稿work/focus_asr/*_abs.txt,按章节切分并带绝对时间戳。ASR 负责保证覆盖率,但其中有术语误识别。
  • 关键帧work/selected_frames/work/full_selected_frames/,用于保留现场幻灯片中的架构图、表格、公式、流程图和圆桌场景。
  • 外部补充work/references/external_sources.md 中记录的官方页面、arXiv、作者主页等,用于校正论文名、方法名和背景,不替代现场内容。

整场议程

时间 讲者 主题
00:00:02--00:15:07 诸葛鸣晨 论坛与嘉宾介绍:Recursive Self-Improvement 的问题边界
00:15:07--00:49:32 刘泽春 Scaling Down: Optimizing Foundation Models for Edge Deployment
00:49:32--01:19:14 张少坤 基于可扩展智能体经验的递归自学习
01:19:14--01:46:55 谷雨 The Illusion of Self-Improving Agents
01:46:55--02:11:22 林涛 面向自进化统一多模态模型:少步生成与智能体式理解
02:11:22--02:40:00 王琰 Empowering LLMs with More Agency: From Context Engineering to Self-Engineering Architectures
02:40:00--03:08:12 杨梦月 开放场景下的因果世界理解:从表征学习到持续性自主优化
03:08:12--03:29:16 郑侠武 From Benchmarking to Self-Improvement: Building Verifiable Feedback Loops for Abstract Reasoning
03:29:16--04:27:53 圆桌讨论 觉醒与进化:AI 如何自我迭代?

主线导图

这场论坛虽然讲者很多,但并不是松散拼盘。它围绕"AI 怎样从被动训练走向自我驱动的持续改进"展开,形成了八条互相咬合的主线。

诸葛鸣晨开场:给 RSI 设定问题边界

为什么从 Recursive Self-Improvement 开始

开场不是普通主持串场,而是在给整场论坛定义共同语言。诸葛鸣晨把论坛主题定位为 AI 自进化,也就是 Recursive Self-Improvement,简称 RSI。他强调 RSI 很有潜力,但如果没有定义、历史脉络、工程边界和评估机制,讨论很容易滑向口号。

论坛主题页:AI 自进化与 Recursive Self-Improvement
论坛主题页:AI 自进化与 Recursive Self-Improvement00:00:03
论坛主席与主持人介绍页
论坛主席与主持人介绍页00:00:30

他的个人背景也与论坛主题有关:他是 Recursive 公司的创始成员,博士毕业于 KAUST,导师是 Juergen Schmidhuber。这个背景把讨论连接到 Gödel Machine、神经计算机、代码智能体和递归自我改进这些长期线索。

Formal RSI 与 Empirical RSI

开场最重要的概念区分,是 Formal RSI 与 Empirical RSI。Formal RSI 更接近 Schmidhuber 的 Gödel Machine 传统。严格版本要求系统能够访问自身描述,生成自我修改候选,用形式化证明说明新版本更优,把自身替换为被证明更好的版本,并持续重复这个闭环。

Empirical RSI 是现实工程中更可能先落地的版本。系统状态可以是代码仓库、智能体框架、训练流程、评估环境或一套基础设施。系统生成候选版本,再通过 benchmark、测试、真实环境反馈或人类评价筛选更好的候选,然后迭代。

Formal RSI 与 Empirical RSI 的对照
Formal RSI 与 Empirical RSI 的对照00:02:30

为什么 2025 以后 RSI 重新变得可讨论

RSI 不是新概念。开场回顾了 Schmidhuber 对 self-improving AI 的长期目标,也说明 Gödel Machine 很早就给出过形式化表达。真正变化的是:模型代码能力、智能体工具链、评估平台和自动化实验基础设施在最近几年同时变强。

Schmidhuber 关于 self-improving AI 的长期目标
Schmidhuber 关于 self-improving AI 的长期目标00:04:30
模型代码能力进入可讨论 RSI 的临界点
模型代码能力进入可讨论 RSI 的临界点00:07:30

当代码智能体不仅能执行任务,还能修改工具链、工作流、测试和数据回流路径时,RSI 就不再只是哲学设想。它变成一个工程问题:系统到底能改哪一层?谁来评估改得好不好?如何防止系统学会操纵评估?

把智能体组织形式化为图

开场用图结构理解 agent 和 organization。单个 agent 不是一个 prompt,而是由多个 operation/function node 组成的图;多个 agent 协作时,本质上是多个图之间的信息流。所谓 orchestration,就是决定这些节点和边如何连接。

把 agent 与 organization 表示为 graph of nodes/edges
把 agent 与 organization 表示为 graph of nodes/edges00:08:30
RSI 中必须关注评估机制与 reward hacking
RSI 中必须关注评估机制与 reward hacking00:09:30

本节小结

开场给后续报告留下三个问题:第一,现实 RSI 大概率先是经验闭环,而不是形式证明闭环;第二,agent 的结构、工具、工作流、memory 和模型权重都可能成为被改进对象;第三,只要系统能自我修改,评估就不是尾部打分,而是防止系统自欺和 reward hacking 的核心机制。

刘泽春:Scaling Down 与端侧自进化的计算底座

为什么自进化首先需要高效模型

刘泽春的报告从一个很直接的判断开始:Recursive AI 需要很多 iteration。如果每次迭代都很贵,系统就无法进行足够多的试错、rollout、评估和再训练。因此,compression、efficient algorithm、quantization、edge deployment 并不是论坛主题之外的工程优化,而是自进化能否发生的计算底座。

Recursive self-improvement requires massive iteration
Recursive self-improvement requires massive iteration00:15:10

他把目标说得很清楚:让模型跑得更快,在更小 model size 下激发更大潜力。边缘设备部署的例子包括眼镜、手机等。端侧运行有两个额外意义:其一是 personalization,模型可以更贴近用户偏好;其二是 privacy preserving,很多个人数据不必离开设备。

量化后的 reasoning model 为什么会 overthink

第一组工作关注量化 reasoning model 的一个反直觉现象:模型量化后不只是"能力下降",还会"想得更久但不更好"。核心例子是:模型在中途已经产生正确答案,但因为不确定,继续说 wait、but 之类转折词,反复检查,最后反而走到错误答案。

Quantized reasoning models overthink:中途正确但继续怀疑
Quantized reasoning models overthink:中途正确但继续怀疑00:16:40

这里的关键不是"长 CoT 一定不好",而是"量化改变了模型对自己答案的置信和继续思考的倾向"。统计结果显示,低比特量化会让 accuracy drop,同时 CoT length rise。进一步分类错误后,overthinking error 在低比特模型中不成比例增加。

量化后 accuracy drops 且 CoT length rises
量化后 accuracy drops 且 CoT length rises00:17:40
Overthinking errors inflate disproportionately
Overthinking errors inflate disproportionately00:18:15

Training-Free Logit Penalty

解决方案非常朴素:整理一组容易触发过度反思的 token,例如 wait、but 等高熵转折词,在 decoding 时对这些 token 的 logit 施加 penalty。这是 training-free 的,不需要重新训练模型。实验上,它能缩短 CoT,并在很多设置中提高 accuracy。

Training-free logit penalty:压低过度反思 token
Training-free logit penalty:压低过度反思 token00:20:10

这个方法的意义不在于它是终极方案,而在于它说明:量化带来的损失有一部分不是"知识消失",而是"推理控制策略偏移"。如果问题来自推理轨迹的局部偏置,那么 decoding 层面的干预就可能有很大收益。

SpinQuant:用 learned rotations 降低 outlier

第二组工作是 SpinQuant。LLM 量化困难的一个来源是 activation 或 weight 中的 outlier。直观上,如果某些维度特别大,低比特表示就很难同时照顾这些极端值和普通值。SpinQuant 的思路是学习旋转矩阵,通过改变基底把 outlier 分散,从而让量化更平滑。

SpinQuant: LLM quantization with learned rotations
SpinQuant: LLM quantization with learned rotations00:22:40
同时旋转 weights 和 activations
同时旋转 weights 和 activations00:24:10

报告中强调,旋转不是随便加一个 trick。它要满足正交矩阵约束,既要旋转 weight,也要旋转 activation,并保持网络函数尽量不变。优化旋转矩阵时,用到 Stiefel manifold 上的 Cayley SGD。

用 Cayley SGD 优化旋转矩阵
用 Cayley SGD 优化旋转矩阵00:25:40

QAT 为什么慢,以及如何加速

第三组工作讨论 quantization-aware training。QAT 的目标是在训练过程中加入量化,从而让模型适应量化误差。问题是 QAT 收敛很慢,早期性能下降明显。报告用 Hessian spectrum 解释:量化模型的 loss surface 可能出现 saddle points 和 flat regions,导致梯度更新效率低。

QAT 的 Hessian spectrum 与 saddle/flat region
QAT 的 Hessian spectrum 与 saddle/flat region00:28:40

为加速 QAT,报告提出 weight re-initialization 思路:周期性地把权重重置到 full-precision weight 与 quantized weight 的线性插值位置,从而减小二者距离,并放大 Hessian eigenvalues 的有效信号。实验结果显示,训练速度和最终性能都可以改善。

加速 QAT 的 weight re-initialization 算法
加速 QAT 的 weight re-initialization 算法00:30:10

MobileLLM-R1:小模型 reasoning 的训练管线

报告后半转向 MobileLLM-R1。核心问题是:sub-billion 或小参数模型是否也能拥有 reasoning 能力?路线不是简单蒸馏,而是完整训练 recipe:pre-training、mid-training、post-training 分阶段推进。

MobileLLM-R1 标题页
MobileLLM-R1 标题页00:31:40
MobileLLM-R1 训练管线
MobileLLM-R1 训练管线00:32:10

pre-training 阶段关注能力平衡。报告展示了 influence score 的思想:通过 leave-one-out ablation 识别哪些数据对目标能力有正向贡献,再聚合为数据集层面的权重。mid-training 阶段关注 knowledge compression,即把更大模型或更复杂分布中的知识压缩进小模型。post-training 阶段再做 general SFT 与 math/code SFT。

Pre-training 中用 influence score 平衡能力
Pre-training 中用 influence score 平衡能力00:35:10
Mid-training: knowledge compression
Mid-training: knowledge compression00:37:40
Token efficiency:小模型训练效率对比
Token efficiency:小模型训练效率对比00:39:10

报告还从 RL 角度解释 on-policy KD。传统蒸馏容易是 off-policy:老师给出的轨迹不一定来自学生当前策略。on-policy KD 更接近让学生在自己的轨迹分布上接受老师反馈,这对 reasoning 小模型尤其重要。

RL perspective on on-policy KD
RL perspective on on-policy KD00:39:40
MobileLLM-R1.5 结果与延伸
MobileLLM-R1.5 结果与延伸00:40:40

Q&A:量化下界、稀疏与 scaling law

Q&A 中,有听众问:量化到 8-bit、4-bit 后能力上限在哪里?刘泽春回答,经验上 8-bit 和 4-bit 很多时候接近无损,尤其 QAT 做得好时 4-bit 可以接近 full precision。但更低比特会更挑战,不同 use case 对精度要求不同。

另一个问题是稀疏和量化的关系。他认为量化通常比稀疏有更高压缩率:从 BF16 到 4-bit 可以有很大压缩且精度损失小,而稀疏做到 20%--30% 压缩已经很难无损。但两者不完全互斥,可以叠加。

最后他提到 ParetoQ 类 scaling law 问题:更大参数加更低 bit,与较小参数加更高 bit 之间存在 tradeoff。某些场景下 2-bit 可能优于 4-bit,长上下文或高精度场景下 4-bit 可能更稳。

本节小结

刘泽春的报告把 RSI 拉回计算成本:自进化不是只要有"反思"就能发生,它需要大量迭代。量化、小模型、端侧部署和训练加速共同决定了系统能否 afford 足够多的尝试。对学习讲义读者来说,本章最重要的收获是:高效模型不仅是部署优化,也是自进化闭环的基础设施。

拓展阅读

张少坤:从 AgentOptimizer 到 ProRL Agent Rollout Infrastructure

Self-evolving Agent 的两个条件

张少坤的报告围绕"基于可扩展智能体经验的递归自学习"。他给 self-evolving agent 的定义有两个条件:第一,agent 能递归地从自己的经验中学习;第二,它能修改自身的可学习组件,而不只是消耗外部数据。

Recursive Self-Learning through Scalable Agentic Experience
Recursive Self-Learning through Scalable Agentic Experience00:49:35
Self-evolving Agent:从自己的经验学习并修改可学习组件
Self-evolving Agent:从自己的经验学习并修改可学习组件00:50:05

他用 von Neumann self-replicating machine 类比这种递归能力:一个系统不仅执行任务,还要能生成、评估、修改下一版系统。对 agent 来说,这里的"自身"不只是模型参数,也包括 prompts、tools、subagents、workflow、memory 和 policies。

self-replicating machine 类比
self-replicating machine 类比00:51:05
通过自身交互生成可扩展经验
通过自身交互生成可扩展经验00:51:35

AgentOptimizer:把 model 和 harness 分开

AgentOptimizer 的关键抽象是:agent = model + harness。model 是底座语言模型;harness 是工具、prompt、workflow、subagent、policy 等外部组织结构。自进化可以先发生在 harness 上,因为它比模型权重更容易读写、修改和评估。

AgentOptimizer:agent = model + harness
AgentOptimizer:agent = model + harness00:52:35
AgentOptimizer 的递归 loop
AgentOptimizer 的递归 loop00:54:35

具体循环是:agent 在 environment 中完成任务,evaluation 给出反馈,AgentOptimizer 根据反馈对 harness 做 add/delete/modify/check 等操作,然后进入下一轮。这个框架证明了:即使不改模型权重,修改工具链和工作流也能带来性能提升。

Self-evolving learning curve
Self-evolving learning curve00:57:05

为什么需要 ProRL Agent Server

报告第二部分转向 ProRL Agent Server。原因是 agentic RL 的 rollout 比普通 RL 更复杂:它是多轮、多工具、多环境、多仓库、多资源、多 reward 的系统问题。RL trainer 与 inference engine 之间如果强耦合,会让每个任务都需要专门 glue code。

ProRL Agent Server: Agent Rollout Infrastructure
ProRL Agent Server: Agent Rollout Infrastructure00:57:35
coupled design 与 decoupled design 对比
coupled design 与 decoupled design 对比01:01:05

ProRL Agent Server 的思想是把 rollout 做成服务。RL trainer 不需要了解每个 agent harness 的细节,只需要请求 rollout;server 负责 sandbox、repo、resource、tool、environment、reward、model proxy 等基础设施。

ProRL Agent Rollout Server 架构
ProRL Agent Rollout Server 架构01:03:35
异步 worker rollout 时间线
异步 worker rollout 时间线01:05:05

这个架构的工程价值在于:它允许多种 harness、多种任务共享一套 rollout 基础设施,并支持 asynchronous worker 调度。报告还展示了 prefix merging、token routing、GPU utilization 等优化点。

Prefix merging 与 token routing
Prefix merging 与 token routing01:06:35
多 harness rollout 指标
多 harness rollout 指标01:08:35

Q&A:overfitting、机器人与 off-policy

Q&A 中,一个问题问 agent 自进化是否会 overfit。张少坤的回答很务实:computer-use agent 和软件工程任务中确实会遇到 overfitting。缓解思路主要在数据层面扩大 diversity,例如预先定义 rollout 轮次、工具种类、工具频率等 diversity metrics,再据此选数据。

另一个问题追问能不能在 rollout 阶段扰动 agent、过滤路径来增加多样性。他提醒:RL 阶段如果在 rollout 中干预 agent,可能导致 off-policy 问题。更稳妥的做法是让 agent 自己探索,rollout 结束后再决定如何利用数据、如何增加 diversity。

关于机器人场景,他认为 VLA 和 diffusion action decoder 中也存在 failure mode,关键是大规模 rollout 收集真实失败,再用 critical data 训练。也就是说,ProRL 的基础设施思想不只适用于软件 agent,也可迁移到更复杂的 embodied agent。

本节小结

张少坤的报告补上了"自进化经验如何规模化产生"的基础设施层。AgentOptimizer 说明 harness 可以成为可学习对象;ProRL Agent Server 说明 agentic RL 需要 rollout-as-a-service。没有这样的基础设施,自进化只能停留在单次 demo;有了它,系统才可能积累足够多、足够多样、可用于训练的经验。

拓展阅读

  • ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents: arXiv 2603.18815

谷雨:Self-Improving Agents 的幻觉与真正学习的条件

为什么说有一种"幻觉"

谷雨的报告是全场最重要的反思性报告之一。他没有直接展示一个新系统,而是追问:今天很多号称 self-improving 的 agents,究竟是在学习,还是只是在堆积数据、改写 prompt、追加 memory?

谷雨报告标题页:The Illusion of Self-Improving Agents
谷雨报告标题页:The Illusion of Self-Improving Agents01:19:16
Self-improving agents are having a moment
Self-improving agents are having a moment01:19:46

他的出发点是:大模型训练仍然是高度被动的。人类决定数据、训练流程、RL environment 和 post-training recipe。模型上线后生成的大量 interaction 没有被及时消化成学习信号。如果未来模型参数规模继续上升,单靠互联网数据和人工标注数据很可能无法饱和。

为什么需要 self-improving:被动训练与数据瓶颈
为什么需要 self-improving:被动训练与数据瓶颈01:21:14

Self Improve = Proactiveness + Learning

谷雨把 self-improve 拆成两个词:self 与 improve。self 对应 proactiveness:agent 要自己判断学什么、什么时候学;improve 对应 learning:agent 要真的改变自身能力,而不是只留下日志。

Self Improve = Proactiveness + Learning
Self Improve = Proactiveness + Learning01:22:44

他本场主要讲 learning。一个核心定义是:learning 可以看成 memory 的更新。memory 不只是 markdown 文件或向量数据库,也包括模型权重、skill、workflow、harness、tools 等所有会影响未来 inference 的长期状态。

Learning 的三个 desiderata:representation、update、execution
Learning 的三个 desiderata:representation、update、execution01:24:44
Memory 不只是 markdown/vector DB,也包括 model weights
Memory 不只是 markdown/vector DB,也包括 model weights01:25:44

结构化表示:为什么 markdown rewrite 不够

representation 的关键是 abstraction 与 structure。没有结构的 memory 很难可靠泛化。谷雨用猫狗/颜色概念的例子说明:若只是把经验写成自然语言规则,模型可能无法稳定形成概念边界;结构化 memory,例如决策树,更容易支持可靠更新和后续执行。

没有结构时概念化不可靠:猫狗/颜色例子
没有结构时概念化不可靠:猫狗/颜色例子01:28:14
结构化 memory 与 markdown rewrite 的 77% vs 28% 对比
结构化 memory 与 markdown rewrite 的 77% vs 28% 对比01:29:14

这也是对许多"self-improving skill"的批评:它们把经验追加到 markdown 文件里,或者把笔记写进向量库,但没有稳定的抽象结构,也没有保证新经验能以正确方式合并进旧知识。

文本、向量库与权重:现有 memory 方案的利弊

报告回顾了几类现有方案。文本 memory 可读、易编辑,但结构弱、更新不稳定。向量数据库检索方便,但更像 episodic memory,难以保证抽象规则被学到。模型权重是最强的 long-term memory,但更新成本高、可解释性差,也难以在线可靠更新。

Revisit existing solutions:文本、向量库、权重的利弊
Revisit existing solutions:文本、向量库、权重的利弊01:31:14

因此,真正的 self-improving agent 不能只问"把记忆存在哪里",还要问"这个记忆的结构是什么、更新算法是什么、执行时如何验证它真的有用"。

Execution with Memory:prompt 注入不是闭环执行

第三个条件是 execution。很多系统把 memory 检索出来塞进 prompt,然后希望模型照做。谷雨认为这不足以构成可靠执行,因为 prompt injection 只是把信息放到上下文里,并没有保证 agent 会正确使用,也没有闭环验证执行结果。

Execution with memory:prompt 注入缺少执行保障
Execution with memory:prompt 注入缺少执行保障01:34:44
Quick summary:结构化抽象、可靠更新、闭环执行、meta control
Quick summary:结构化抽象、可靠更新、闭环执行、meta control01:39:14

这里需要 meta control:agent 要知道什么经验值得学,什么时候需要更新,更新后如何测试,失败时是否回滚。也就是说,proactiveness 不是额外装饰,而是 learning 系统的一部分。

Q&A:领域专门化与 expert-free 学习

Q&A 中,谷雨强调长期 memory 和 self-improvement 在专业领域尤其重要,因为很多长尾知识、组织内部知识、产品知识无法完全依赖公开互联网数据。他也指出,不一定每次都需要领域专家显式写规则;如果系统有足够强的结构化学习和 metacognition 层,它可以从交互中抽象出可验证规则。

但他也保持谨慎:如果只是在任务后追加文本,或者把错误经验也一并写入 memory,就很可能形成"越学越乱"的系统。真正的学习需要可靠的结构、更新和验证。

本节小结

谷雨报告提供了整场论坛的判别标准:不是所有"有记忆"的 agent 都是 self-improving agent。只有当经验能被结构化表示、可靠更新、闭环验证,并由 agent 主动决定何时学、学什么时,才接近真正的 self-improvement。

细节层:诸葛鸣晨开场

本节覆盖 00:00:00--00:15:06,来自分章 ASR 与视频画面校验。

细节层:刘泽春

本节覆盖 00:15:07--00:49:28。

细节层:张少坤

本节覆盖 00:49:44--01:19:14。

细节层:谷雨

本节覆盖 01:19:14--01:46:54。

林涛:统一多模态模型中的想象、行动与反馈闭环

多模态生成与理解:缺失的闭环

林涛的开场问题很直接:现在多模态模型已经能看、能画、能编辑、能做简单的 tool use,但看、画、行动这三件事之间没有闭环。模型的理解不会自动变成更好的生成,生成也不会反过来帮助理解,更不会指导行动并从反馈中学习。

林涛报告标题页:Towards Self-Improving UMMs / WAM
林涛报告标题页:Towards Self-Improving UMMs / WAM01:46:58
多模态生成与理解应用墙
多模态生成与理解应用墙01:48:25
The Missing Loop:能否用生成、行动、反馈互相学习
The Missing Loop:能否用生成、行动、反馈互相学习01:49:25

他展示了团队训练的统一多模态模型,可以做 VQA、图像编辑、图像生成和简单的 tool use,甚至支持文本与图像模态的 interleaved generation。但关键问题不是这些能力够不够炫,而是它们能不能帮助 backbone 自我提升。

Generation as Imagination:想象要 grounded

报告中有一个重要转向:generation 不只是输出图片或视频,它也可以被看成 imagination,即模型在内部做 imagined rollout。问题是,想象如果不被 grounded,就会漂亮但错误。

Semantic generation failures:漂亮但不理解约束
Semantic generation failures:漂亮但不理解约束01:49:55
Generation as imagination
Generation as imagination01:50:25

因此,imagination is not enough。想象必须接触真实环境,必须能被检查、修正、再生成。否则它只是 demo,而不是学习闭环的一部分。

Grounded Imagination:grounded、constrained、revisable
Grounded Imagination:grounded、constrained、revisable01:55:55

Unified World-Action Model 与共享状态

林涛提出的统一视角是 World-Action Model。模型要理解世界、想象世界、采取行动,并从环境反馈中学习。这要求模型内部有共享状态,而不是理解模块、生成模块、行动模块各自为政。

A Unified World-Action Model
A Unified World-Action Model01:51:25
Shared State Requirements
Shared State Requirements01:52:25

共享状态至少要满足几件事:能双向 grounding,能 revision dynamics,能兼容 feedback。报告还强调 one token space:如果理解和生成不在同一 token/state 空间里,反馈很难穿过模块边界进入真正的学习。

One Token Space:统一多模态 token/state
One Token Space:统一多模态 token/state01:54:25
Understanding as Grounding
Understanding as Grounding01:54:55
Interleaved Self-Inspection:plan/generate/inspect/revise
Interleaved Self-Inspection:plan/generate/inspect/revise01:55:25

想象必须便宜:少步生成技术的角色

如果 imagined rollout 很贵,就只能做 demo,无法形成大量循环。因此少步生成是 WAM 的基础工程条件。报告串起 UCGM、RCGM、TwinFlow、DuMo 等工作,说明如何让生成从昂贵多步扩散走向更便宜、更稳定的少步甚至一步生成。

Imagination Must Be Cheap
Imagination Must Be Cheap01:56:25
Backbone Imagination Engine
Backbone Imagination Engine01:57:25
One Few-Step Engineering Arc:UCGM/RCGM/TwinFlow/DuMo
One Few-Step Engineering Arc:UCGM/RCGM/TwinFlow/DuMo01:58:25
RCGM: Stable Fast Generation
RCGM: Stable Fast Generation02:00:25
TwinFlow: One-Step Generation
TwinFlow: One-Step Generation02:02:25
DuMo: Architectural Stability
DuMo: Architectural Stability02:02:55

这些技术在讲义中的学习意义是:生成模型效率不是孤立追求速度,而是在为"便宜 rollout"创造条件。自进化系统需要大量 imagined/real rollout;rollout 越便宜,反馈闭环越可能规模化。

为什么行动进入闭环

行动进入闭环,是因为生成必须可检查。模型不能只生成一个视觉未来,还要能在环境中试探、执行、获取反馈。报告列出几条条件:generation must be checkable,模型需要 self-check,信号要在模型外部被验证,并能回流到共享状态。

Why Action Enters the Loop
Why Action Enters the Loop02:04:55
Cheap Rollouts Build Loops
Cheap Rollouts Build Loops02:05:25
Feedback Lessons We Can Use
Feedback Lessons We Can Use02:06:25

最后的 roadmap 把问题拆成四个开放接口:从 understanding 到 imagination,从 imagination 到 action,从 action 到 feedback,再从 feedback 回到 backbone。这些接口决定了多模态模型能否从"能力集合"变成"自进化系统"。

Research Roadmap
Research Roadmap02:07:25
Four Open Interfaces
Four Open Interfaces02:07:55

Q&A:self-improvement 与 active learning 的区别

Q&A 中,听众问 self-improvement learning 与 active learning 的关键区别。林涛回答,关键在 self-awareness:模型要知道自己的 knowledge boundary,并能构建适合自己进化的环境。传统 active learning 更多是选择样本;self-improvement 则要求系统认识自身局限并沿着目标改变环境和训练方式。

另一个问题涉及 data scaling、environment scaling 和 model scaling 的规律。林涛认为这是值得探索的 scaling law 问题:不同规模模型使用数据和环境反馈的能力不同,未来需要把数据、环境和模型协同进化地理解。

本章小结

林涛把"自进化"扩展到统一多模态系统:生成是想象,想象要 grounded,grounding 要行动,行动要反馈,反馈要能改共享状态。少步生成技术在这里不只是图像生成优化,而是让 imagined rollout 便宜到足以进入学习循环。

拓展阅读

王琰:从 Context Engineering 到 Self-Engineering Architecture

模型很聪明,但通用性和灵活性还不够

王琰的报告风格很鲜明,但核心问题非常清楚:当下模型在数学、代码等场景已经很强,Claude Code 一类系统甚至改变了研究和工程工作方式;但模型的通用性和灵活性仍然不如人。它会陷入死循环,不会自己清 context,不会自己调整 decoding 参数,也不会自然把环境知识沉淀下来。

王琰报告标题页
王琰报告标题页02:11:35
Central Problems to AGI:智能性与通用性差距
Central Problems to AGI:智能性与通用性差距02:12:50

他的判断是:很多早期帮助模型的工程手段,在模型能力变强后反而变成枷锁。prompt engineering、context engineering、decoding heuristics、harness 都曾经帮助弱模型工作,但当模型足够强时,人类硬写的框架可能限制模型自己管理环境的能力。

Active Context Manager:让模型自己管理上下文

第一组工作是从 context engineering 到 active context manager。目标是让模型主动编辑自己的 context,而不是被动堆满上下文窗口后等待人类清理。模型在 context 增长到一定程度后,自己压缩、重排、删改,再继续推理,从而接近无限上下文。

从 context engineering 到模型主动管理 context
从 context engineering 到模型主动管理 context02:14:30

报告展示了一个有趣结果:模型没有在 agent 数据上训练,却能在 BrowseComp-Plus 一类深度研究 benchmark 上显著提升。这说明模型学到的是一种较通用的 context 管理能力,而不是一个固定 workflow。他还提到同期有个 Recursive Language Model 的工作,用 480B 模型在 BrowseComp 上的效果只跟他们 8B 模型差不多,8B 版本更是只有三分之一。

Task-dependent memory 是反 AGI 的

王琰随后指出 task-dependent memory 的问题。若每个任务都要重新读完整上下文、重新建立 KV cache,那么同一环境下的问题无法复用前一次探索得到的世界知识。以哈利波特为例,人不会为每个角色介绍重新读全书;模型也不应如此。

Pensive Paradigm 的问题:task-dependent memory
Pensive Paradigm 的问题:task-dependent memory02:17:10

真正更接近 AGI 的 memory 应该是:模型先在环境中充分探索,形成可复用 world knowledge;未来不同任务都能共享这份知识,而不是每个任务从零开始消耗 token。而且 KV cache 命中与不命中时的 API 账单差距巨大——这不仅仅是学术问题。

Reward-free self-evolution 与 World Knowledge Reward

第二组工作是 Spontaneous and Reward-Free Self-Evolution。核心想法是:在下游任务出现之前,agent 先探索环境,生成 world knowledge。训练时仍然需要 reward 来判断 world knowledge 是否有用,但推理时不需要 reward;推理阶段只是调用已经探索出的世界知识。

Spontaneous and Reward-Free Self-Evolution
Spontaneous and Reward-Free Self-Evolution02:20:30
Native self-evolution:环境探索并形成 world knowledge
Native self-evolution:环境探索并形成 world knowledge02:22:20

World Knowledge Reward 的定义可以用一句话理解:有 world knowledge 时完成任务的成功率,减去没有 world knowledge 时完成任务的成功率。这个差值衡量了知识本身对未来任务的贡献。

World Knowledge Reward:用下游任务增益定义训练信号
World Knowledge Reward:用下游任务增益定义训练信号02:23:45
Native self-evolution 实验主结果
Native self-evolution 实验主结果02:24:45

报告还强调 cross-model transfer:一个模型探索出来的 world knowledge 可以迁移给另一个模型。这使 knowledge scaling 有可能在某些知识密集任务中比 parameter scaling 更有效。比如千问三 14B 加上 world knowledge 的效果直接超过 Gemini 2.5 Flash,而 Gemini 2.5 Flash 加上世界知识又超过了 2.5 Pro。

Cross-Model World Knowledge Transfer
Cross-Model World Knowledge Transfer02:26:15
腾讯小程序长尾场景:自动生成 world knowledge
腾讯小程序长尾场景:自动生成 world knowledge02:28:30

FlashMemory 与长上下文的工程瓶颈

第三组工作是 FlashMemory-DeepSeek-V4 / Lookahead Sparse Attention。报告先给出一个观察:很多长上下文 query 并不真正需要全窗口信息,90% 的 query 只需要最后 8K,甚至只需要最后 100 tokens 左右。长上下文的问题不是"没有窗口",而是"KV cache 成本太高且多数 token 在当前 query 中无用"。

上下文窗口瓶颈:90% 长上下文 query 只需最后少量 token
上下文窗口瓶颈:90% 长上下文 query 只需最后少量 token02:30:30
FlashMemory-DeepSeek-V4:只保留关键 token 的 GPU memory
FlashMemory-DeepSeek-V4:只保留关键 token 的 GPU memory02:31:35

FlashMemory 的工程思路是:全部 KV 放在 CPU 上,GPU 只保留 query-critical 的未来 KV cache。Lookahead Sparse Attention 预测未来若干步需要哪些 critical token,并提前搬到 GPU,从而在长上下文推理中降低 GPU memory 压力。在超过 128K 的场景下能把 KV cache 显存压力降低 90%。

Lookahead Sparse Attention:预测未来 critical KV cache
Lookahead Sparse Attention:预测未来 critical KV cache02:33:35
FlashMemory 的 limitations
FlashMemory 的 limitations02:34:20

局限也很明确:长度泛化仍有问题——训练在 128K 上,泛化到更长就失效,可能是因为位置编码没见过更长范围;KV overhead 不是常数级,始终保持在 10% 左右;dense information tasks(如 NQR)可能掉点。也就是说,FlashMemory 是一条工程上很有意义的路径,但不是长上下文问题的终点。

Q&A:它不能替代 agentic RL

Q&A 中有人问,这些 reward-free/self-engineering 思路是否能替代 agentic RL。王琰明确回答不能。reward、credit assignment、process reward、人类标注或可验证信号仍然根本。self-engineering 更多是在降低人类手写 context/harness 的比例,让模型参与自身上下文、知识和架构管理。强化学习最根本的还是 reward,不是架构——从游戏 AI 的视角来看,只要 outcome reward 不要过程奖励基本就是在搞笑。

本章小结

王琰报告的主线是把 agency 从人类工程师手中逐步交还给模型:让模型自己管理 context,自己探索环境知识,自己把长上下文中的关键 token 留在 GPU,自己在未知任务前准备 world knowledge。它与谷雨报告互补:谷雨强调什么才算真正学习,王琰强调模型如何获得更强自主工程能力。

拓展阅读

杨梦月:开放世界中的因果世界理解

从 model-free 决策到 modelling the world

杨梦月的报告把自进化问题放到因果世界理解中。开头先区分 agent decision making 的两条路线:model-free 方法直接从状态到动作;modelling world 则先理解世界,再基于世界模型计划行动。

Self-Improving Causality Seeking Agents in Open-Ended World
Self-Improving Causality Seeking Agents in Open-Ended World02:40:05
Agent decision making:model-free 与 modelling world
Agent decision making:model-free 与 modelling world02:40:35

她强调,开放世界中 modelling world 是必要的,因为数据无法覆盖所有可能情况,长程控制需要规划,探索也必须有目标,而不是随机试错。

Why modelling world is necessary
Why modelling world is necessary02:41:35

World model 不等于 understanding

一个关键区分是:modelling the world 不等于 understanding the world。世界模型可能能预测下一帧、下一状态,却不一定理解因果关系。真正的理解需要知道哪些变量产生因果影响,哪些只是相关。

Modelling the World is Not Understanding the World
Modelling the World is Not Understanding the World02:42:35
Pearl's Causal Hierarchy
Pearl's Causal Hierarchy02:48:05

报告用伞、天气、地面湿度的例子说明:看到人打开伞与地面变湿相关,并不意味着打开伞导致地面变湿。若 agent 错把相关当因果,就会做出错误干预。她引入了 Pearl 三层因果阶梯:第一层是 association(当前大部分世界模型和 agentic RL 学到的);第二层是 intervention(做操作看反馈);第三层是 counterfactual(已发生事件中的反事实想象)。

伞/天气/地面湿度例子:相关不等于因果
伞/天气/地面湿度例子:相关不等于因果02:49:05

Causal World Models

Causal World Model 的目标是把感知、行动、规划和因果知识联系起来。因果知识能帮助 agent 去除虚假相关,理解行动会改变哪些变量,从而做更好的探索和决策。

Causal World Models
Causal World Models02:51:05
因果知识移除虚假相关并改善决策
因果知识移除虚假相关并改善决策02:51:35
Representation + Causal Structure
Representation + Causal Structure02:52:05

这与自进化的关系在于:agent 的探索不应只是收集更多 observation,而应针对当前 causal understanding 的边界进行干预,验证或修正因果结构。

开放世界:causal drift 与 continual causal learning

开放世界带来 scaling challenge:状态和动作空间无限,多 agent 动态复杂,策略空间爆炸,观测窗口不断变化。因果关系也可能 drift:在不同条件下,同一变量之间的关系会改变。

开放世界 scaling challenge
开放世界 scaling challenge02:53:05
Continual Causal Learning in Open-Ended Worlds
Continual Causal Learning in Open-Ended Worlds02:54:35
Causal drift in open worlds
Causal drift in open worlds02:56:05

Meta-Causal Graph 用来描述不同 context 下 causal mechanism 的变化。agent 不只学一个静态因果图,而是学习因果图如何随条件变化。她用牛顿定律和微观物理的类比:物理规则本身没变,但观察手段不同,看起来物理规则好像变了。所以 agent 需要学会主动向环境提问,突破自己的知识边界。

Meta-Causal Graph: condition-specific causal transitions
Meta-Causal Graph: condition-specific causal transitions02:57:35

LLM Agents 的一般学习循环

报告后半把因果学习接到 LLM agents。她提出一个 general learning loop:forward design 负责生成高质量数据和任务;evaluation abilities 判断当前 agent 的结果;backward update 把反馈转化为更好的 trajectory;memory/skill bank 保存沉淀下来的知识。

A new general learning loop for LLM agents
A new general learning loop for LLM agents02:59:05
Three components for better self-improvement learning
Three components for better self-improvement learning03:01:05
Forward design 与 backward update
Forward design 与 backward update03:02:35

这与前面几位讲者形成呼应:谷雨讲 memory 的结构化,王琰讲 world knowledge,林涛讲行动反馈,杨梦月把它们放进 causal understanding 的框架中。如果 loop 中每一步都能自我改进,就不只是 self-improvement,而是 recursive self-improvement——不只是知识在积累,学习的能力本身也在进化。

Q&A:因果关系更新是否等于进化

Q&A 中有人问:如果每条因果关系都可以被更新,agent 是否真的进化了,还是指标上看起来进化?杨梦月回答,这正是 self-improvement 面临的最大问题。因果领域可以用 consistency 来判断:当前 causal understanding 设计出的探索,是否被环境反馈支持?如果反馈违背当前因果关系,就说明模型需要更新。

她强调,没有全知全能的 ground truth 告诉我们真实因果图。我们只能鼓励 agent 不断突破当前边界去探索,并观察它能否把新现象压缩成更一致、更简洁的 causal understanding。

本章小结

杨梦月的报告说明:开放世界自进化不能只依赖更多数据,也不能只依赖更长上下文。agent 必须知道哪些关系是因果,哪些只是相关;必须能针对因果边界设计探索;必须能在 causal drift 中持续更新世界理解。

拓展阅读

郑侠武:从 Benchmarking 到可验证自我改进反馈闭环

为什么抽象推理评测是 RSI 的前置条件

郑侠武的报告关注测量与验证。他用一个简单循环描述人类和机器能力提升:observe experience,abstract rules,reason/apply rules,improve,再把新 observation 放回循环。若 RSI 要可靠发生,就必须知道系统到底有没有抽象出规律,而不是记住表象。

Measuring and Verifying Abstract Reasoning for Recursive Self-Improvement
Measuring and Verifying Abstract Reasoning for Recursive Self-Improvement03:08:15
循环提升:经验 -> 规律 -> 应用 -> 改进
循环提升:经验 -> 规律 -> 应用 -> 改进03:08:45
抽象与推理是循环中的关键两步
抽象与推理是循环中的关键两步03:09:45

报告把人类文明循环和机器 RSI 循环并列:人类从消费者/观测者视角抽象规律,应用规律后反过来改造世界;机器 RSI 也需要经验、抽象、应用、改进,但失败点是:只能靠表象判断任务是否做对,很容易误以为学到了规则。

人类文明循环与机器 RSI 循环对照
人类文明循环与机器 RSI 循环对照03:10:45

怎样测到真实抽象推理

核心问题是:怎样区分模型记住了熟悉符号,还是学会了抽象规则?郑侠武引入理论建模:从具体实例 C 抽象出 A,用 rule R 在 A 上推理得到结论 Q,再映射回具体任务。

问题:怎样测到真实的抽象推理
问题:怎样测到真实的抽象推理03:12:15
数学建模:从具体实例到抽象规律再到结论
数学建模:从具体实例到抽象规律再到结论03:13:15

测试方法是给表象加扰动,例如把符号、颜色、对象替换掉,但底层规则不变。如果模型仍能命中规律,说明更可能学到了抽象结构;如果性能崩掉,说明它依赖表象。

给表象加扰动,看模型是否仍能命中规律
给表象加扰动,看模型是否仍能命中规律03:13:45

Gamma 与 Delta:把能力和表征依赖分开

报告提出两个分数:Gamma 更像能力分数,衡量 familiar-domain performance;Delta 更像依赖分数,衡量模型对 representation 的敏感程度。理想模型应该既有高 Gamma,也有低 Delta,即能力强且不依赖具体表象。

Gamma 与 Delta 两个分数
Gamma 与 Delta 两个分数03:15:15
模型常记住符号而不是学习规则
模型常记住符号而不是学习规则03:16:15

从静态 benchmark 到 A2RBench

郑侠武认为静态 benchmark 不够支撑 RSI。若系统能自我改进,固定测试集很快被刷掉,甚至被 benchmark hacking。A2RBench 的思路是自动生成、扩展、评估、分析抽象推理任务,让任务本身可验证,并能随模型能力升级。

第一篇工作的 RSI 角色:能力诊断器
第一篇工作的 RSI 角色:能力诊断器03:18:15
为什么静态 benchmark 不够支撑 RSI
为什么静态 benchmark 不够支撑 RSI03:19:15
A2RBench 自动生成、扩展、评估、分析管线
A2RBench 自动生成、扩展、评估、分析管线03:19:45

报告展示规则族如何从 1D sequence 扩展到 2D grid、3D blocks,并用 forward/inverse 机制验证任务成立:forward 能从规则生成样本,inverse 能反推规则是否一致。这样就不用调 LLM judge——用数学可保证的可逆性就能验证任务有正确答案。

规则族的维度扩展:1D/2D/3D sequence
规则族的维度扩展:1D/2D/3D sequence03:20:15
Forward / inverse 如何验证任务成立
Forward / inverse 如何验证任务成立03:21:15

实验发现:LLM 与人类仍有差距

报告中一个显著结果是:自动生成挑战显著难于当前 top LLM。模型最高约 39.8%,人类约 68.5%。这说明即便规则不复杂,只要表象经过转换,模型仍很难稳定发现底层规律。

自动生成挑战仍显著难于当前 LLM
自动生成挑战仍显著难于当前 LLM03:22:45

另一个现象是 augmentation paradox:增加或扩展数据不一定提升抽象能力。模型可能为了保证任务正确性而生成更简单的规则,尤其在 3D 任务上显示出结构理解能力不足——不是因为不能做 3D 的题,而是在生成 3D 任务时没有那么大的想象空间。

Augmentation paradox:扩展数据并不必然提升抽象能力
Augmentation paradox:扩展数据并不必然提升抽象能力03:23:15

RSI 的抽象推理反馈闭环

最后,郑侠武把 A2RBench 接到 RSI:Generate challenge,Verify,Solve,Diagnose,Improve。下一轮 verified feedback 再返回 challenge generation。这样,benchmark 不只是考试,而是自我改进系统中的反馈发生器。

RSI 的抽象推理反馈闭环
RSI 的抽象推理反馈闭环03:24:45
可靠抽象推理评测是 RSI 前置条件
可靠抽象推理评测是 RSI 前置条件03:26:45

本章小结

郑侠武的报告给整场论坛补上"怎么知道真的变强了"。没有可验证评测,self-improvement 很容易变成 self-delusion。抽象推理评测的核心不是看最终分数,而是判断模型是否从表象中抽出可迁移规则,并在扰动和新任务上保持一致。

拓展阅读

圆桌:觉醒与进化,AI 如何自我迭代

第一问:什么是 AI 自进化

圆桌由主持人先给出背景:今天很多 agent 已经会反思、调用工具、优化指令,但从短期调整到长期自主诊断、持续优化、系统级升级之间仍有很长距离。第一问是请嘉宾给 AI 自进化下定义。

圆桌主题:觉醒与进化,AI 如何自我迭代
圆桌主题:觉醒与进化,AI 如何自我迭代03:29:50
圆桌全景与嘉宾构成
圆桌全景与嘉宾构成03:31:00

林涛从外脑和内脑区分:自进化可以是外脑进化,也可以是内脑进化。关键是 AI 能否认识自己的局限,并把外部 skill、harness、工具中的能力逐步内化到模型本体。

林涛:外脑进化、内脑进化与能力内化
林涛:外脑进化、内脑进化与能力内化03:32:20

谷雨延续自己报告的框架:self-improving 最重要是 proactiveness 与 learning。what 层面是 metacognition,知道自己缺什么、该学什么;how 层面是具体学习算法。

谷雨:proactiveness 与 learning
谷雨:proactiveness 与 learning03:33:20

王琰给出一个更经验主义的判断:今天很多"自进化"仍然是 human-driven evolution,但如果比经典 SFT/RL 更少依赖人类设计,也可以算自进化的一部分。

王琰:今天很多自进化仍是 human-driven
王琰:今天很多自进化仍是 human-driven03:34:30

杨梦月强调 open-endedness:agent 不只是能力进化,还要进化"发现自身知识边界并提出问题"的能力。也就是进化能力本身的进化。

杨梦月:知识边界、自我提问与自我诊断
杨梦月:知识边界、自我提问与自我诊断03:36:20

哪一层最先成熟:基模、harness 还是 memory

第二个问题是:站在今天,最有价值、最可能成熟的自我改进对象是哪一层?王琰认为基模领域已经在 AI 迭代 AI,模型迭代速度明显加快;即使不改参数,只改 prompt、harness、context,也能产生巨大跃迁——EM 的 prompt 能产生的变化"很恐怖"。

林涛认为对大多数人来说,harness 最容易起步。更好的 harness 发挥当前模型上限;大量用户产生的 harness 和 trajectory 又可能回流到更强基模训练中,形成外脑到内脑的循环。

谷雨用统一 memory 视角回答:harness、skills、tools、模型权重都是长期记忆的不同形态。harness 更像 meta-level memory,tools/skills 更像 workflow/process knowledge,模型权重更像 system 1 intuition。学术上难以只选一层;创业上可能先从 harness 起步,因为不必和 Frontier Lab 直接竞争基模。

杨梦月从因果和规则理解角度倾向于 memory 层。但她也提醒,基模能力不断增强可能吞噬一部分 harness 的价值,因此要动态看两条路线的进展。

什么时候进化:推理时、事后,还是长期 checkpoint

谷雨强调"learning during inference + long-term memory"。每一次解决问题都是学习机会,不应浪费。传统深度强化学习主要更新模型参数,难以做到在线学习;未来可能需要非参数更新,使每个 case 都能立即改变 memory。

王琰顺着这个问题谈到 TTT、Doc2LoRA、delta rule 等工作。他关心的是模型能否在 next-token prediction 过程中学会每个 token 对更新梯度的影响,自己决定 data rule,而不是由人类高维生物替它写更新规则。

林涛从训练阶段补充:harness 可以先影响 post-training,得到更强模型后再反馈到 pre-training、mid-training,形成多尺度闭环。因此"什么时候进化"的答案是时时刻刻,只是尺度不同、更新对象不同。

杨梦月用自己的 forward/backward/memory loop 回答:推理过程是 forward design,反馈后是 backward update,沉淀下来的 causal knowledge、rule-based physical knowledge、skills 又进入 memory/skill 层。

Benchmark 是否也要自进化

主持人随后问:当 agent 能力越来越强,静态 benchmark 会被刷掉,评测系统是否也需要动态生成任务?杨梦月认为开放世界需要增长式 benchmark 或增长式 world model,让环境可观察面逐步展开,像 curriculum learning 一样匹配 agent 能力。

王琰更怀疑:open-ended generation 往往没有 benchmark,最终可能回到人评。静态 benchmark 肯定不够,动态 benchmark 能不能评也不确定。

谷雨认为 benchmark 代表目标,因此目标仍应由人提供。但 self-improving 的评估不应只看最终 accuracy,而要看趋势曲线:横轴是完成任务数量,纵轴是 performance,理想系统应随经验持续上升。也就是说,评估对象从"掌握了多少 skill"转向"如何掌握 skill"——how to learn 本身才是 intelligence 最核心的东西。

林涛补充,真正的 intelligence 可以看成能力单位时间增长速度。未来可能需要半自动化 benchmark 发现,再把发现出的 benchmark 用于 post-training。

安全、可控与可验证

当讨论转向安全时,王琰给出很尖锐的判断:AI 失控并不遥远,安全不只取决于技术,也取决于人类是否能克制资本和竞争压力。他甚至直言:看诸葛他们公司叫 RSI 融了很多钱,要是叫 AI 安全能不能融现在 1% 的融资?不可能的。

林涛则给出技术侧回答:半自动化 benchmark 需要有人参与,为系统提供人类定义的约束。至少在一定程度上,可以给系统一些约束,使它不会突破人类想定义的标准。

杨梦月从 trustworthy AI 角度强调 transparency、explanation、causality。要控制系统,首先要知道它为什么做某个决策。传统 causal discovery/inference 方法未必适配大模型时代,需要回到 Pearl 因果阶梯这类基本定义,重新思考约束形式。

谷雨把短期可控性落到两个词:reliability 与 verifiability。reliability 是同一件事这次做对,下次也要做对;verifiability 是模型做错时要知道自己错了。对 agent 落地来说,这两个指标比宏大安全叙事更直接。

AI 与人的协同进化

圆桌后半讨论 AI 进化是否会倒逼人进化。林涛说自己的工作流已大量由 AI 替代,效率提升让他有时间想更多问题;但人如何更高效进化以促进 AI 进化,仍需探索。

杨梦月从教育经验出发:基础扎实的人能驾驭 AI 工具,产出更高质量工作;基础不扎实的人容易被 AI 误导。AI 会让人形成分层,越有基础越能到达顶部,越依赖工具越可能只是镀金。

王琰进一步指出,AI 可能加剧贫富差距和能力差距。孩子或学生如果过早用 AI 完成作业,会 reward hack 掉本应建立基础能力的过程。更 senior 的人有了 AI 助手后,可能减少 junior 的锻炼机会,这会让新人更难成长。

谷雨用"慢就是快"总结:vibe coding 可能让项目初期推进很快,但如果理解没跟上,repo 会越来越失控,后期反而需要更多时间整理。AI 作为工具会和人共同演进;但如果 AI 不只是工具,而成为平等甚至凌驾于人的主体,未来就不一定是共同进步。

历史定位与未来五到十年

最后,圆桌讨论 AI 自进化是现有 agent 技术的自然延伸,还是新阶段。林涛认为这是自然走向,agent 成熟让这件事更简单。王琰更直接:它就是下一阶段。未来每个人可能有独有参数区域,例如个人 LoRA;inference 与 training infra 支持实时 LoRA merge/unmerge 后,个人任务中的反馈就可能直接沉淀到个人模型中。

谷雨认为这不是互斥问题,而是量变引起质变。关键维度是任务长程程度:从单轮对话到多轮推理、deep research、月/年级任务,再到 lifelong task。任务越长程,系统越需要在过程中发现不足、节省经验、持续学习。

杨梦月则认为 self-improvement 是通往 AGI 的重要技术手段,但不是全部。AGI 还需要快速适应新环境、开放世界中的精细动作、continual learning 和综合解决方案。

圆桌尾声:未来五到十年自进化 AI 的社会影响讨论
圆桌尾声:未来五到十年自进化 AI 的社会影响讨论04:23:30

未来五到十年的社会影响讨论很开放:林涛认为自进化 AI 可能改变一切,从出生到养老形成个人数字人;谷雨希望 AI 不是造成大面积失业,而是把五天工作制变成三天、八小时变成四小时;杨梦月担心 AI 过快压缩人的价值感;王琰补充说,技术进步应该创造新空间,而不是只盯着最容易替代人的领域。

本章小结

圆桌把整场报告的技术线索变成判断框架:自进化包括外脑与内脑、what 与 how、基模与 harness、推理时学习与长期 memory、动态 benchmark 与人类目标、安全与可验证、人和 AI 的共同演进。它也提醒我们,AI 自进化不是纯技术乐观主义;它会改变组织、教育、劳动和社会分配。

全局综合:什么样的系统才接近真正自进化

七个必要条件

把整场论坛连起来,可以得到一个比较严格的判别框架。一个接近真正自进化的 AI 系统,至少需要七个条件:

条件 含义
可迭代计算底座 量化、小模型、端侧部署、长上下文缓存等,使系统能 afford 大量尝试。
可扩展经验生成 agent 能在环境中大量 rollout,经验可被收集、管理、复用。
结构化 memory 经验不是简单日志,而是进入可抽象、可更新、可执行的长期状态。
自主目标识别 agent 能知道自己缺什么、何时需要学、如何提出问题。
世界理解与因果结构 系统不只预测相关性,还能用因果关系指导探索和干预。
可验证反馈闭环 改进必须由可靠 benchmark、动态评测、验证器或人类目标约束支撑。
安全与社会约束 系统不能只追求能力上升,还要可靠、可验证、可控,并考虑对人的影响。

各章节之间的关系

刘泽春解决"跑不跑得起"的问题;张少坤解决"经验如何规模化产生"的问题;谷雨解决"经验是否真的变成学习"的问题;林涛解决"多模态理解、想象、行动如何闭环"的问题;王琰解决"模型如何从人类 context engineering 中解放出来"的问题;杨梦月解决"开放世界中世界理解如何具有因果性"的问题;郑侠武解决"如何验证抽象推理改进是真的"的问题;圆桌则把这些问题推向人类目标、安全、教育和社会结构。

最容易混淆的几个点

术语表

术语 解释
Recursive Self-Improvement, RSI 系统递归改进自身能力的过程。严格形式需要自引用、自修改和可证明改进;工程形式常通过候选生成、评估和迭代实现。
Harness 包裹模型的外部结构,包括 prompt、tools、workflow、subagents、memory、policies 等。
Memory 本讲义中广义使用:所有会影响未来 inference 的长期状态,包括文本、向量库、工具、harness、模型权重、个人 LoRA、world knowledge 等。
World Knowledge agent 在环境探索中沉淀的可复用知识,可在未来不同任务中提升成功率。
World Knowledge Reward 有 world knowledge 与无 world knowledge 的任务成功差,用于衡量知识对任务的边际贡献。
Causal World Model 不只预测世界状态,还显式建模变量之间因果关系的世界模型。
Rollout-as-a-Service 把 agentic RL 的 rollout 过程封装成可复用服务,解耦 trainer 与 agent harness。
Lookahead Sparse Attention 预测未来若干 decoding step 需要的 critical KV cache,并提前搬运到 GPU 的长上下文推理方法。
Gamma / Delta 郑侠武报告中的抽象推理诊断指标,分别用于刻画能力与对表象的依赖程度。
A2RBench 自动生成可形式验证抽象推理 benchmark 的框架,用于从静态考试推进到动态反馈。

外部资料索引

以下资料只作为外部补充,用于校正专名、提供延伸阅读和帮助读者继续深挖。现场内容仍以视频和 ASR 为主。


逐段内容复原层:v2 细节补强

林涛:统一多模态模型中的想象、行动与反馈闭环

王琰:从 Context Engineering 到 Self-Engineering Architecture

杨梦月:开放世界中的因果世界理解

郑侠武:从 Benchmarking 到可验证反馈闭环

圆桌讨论:觉醒与进化,AI 如何自我迭代