AI 要跨越卢比孔河了吗？自我成长的 AI 离我们多远（下集）

阅读说明：这节课到底在问什么

本讲延续上集：上集讨论的是 AI 能不能自己定义学习目标、自己构造 loss、自己更新语言模型参数；下集继续追问一个更工程化也更危险的问题：AI Agent 不只是一个语言模型，它还包含 Prompt、工具、记忆系统、工作流、评估和自我修改逻辑。既然模型参数可以更新，那么这些 “外壳” 能不能也更新？如果连负责更新的模块本身也能更新，AI 是否正在接近科幻作品中的自我成长智能？

视频开场：主题是人工智慧能否自我成长，重点放在“下集”的 Harness、元学习与失控风险。*00:00:00--00:00:10*

为了避免把本讲听成“AI 已经完全自主进化”的宣传，先建立一个更精确的分层：

层级	可更新对象	关键问题
模型层	语言模型参数 $\theta$	能否用自生成任务、自定义 loss、RL 或微调让模型变强。
Harness 层	Prompt、记忆、工具、工作流 $h$	无法直接求梯度，通常需要另一个 LLM 或 Agent 产生候选修改。
元更新层	更新算法、采样策略、训练方案 $\phi$	能不能学习“如何学习”，甚至让更新规则随系统一起进化。
动机层	原生目标、好奇心、掌控感	系统为什么要动起来，目标从哪里来，是否会偏离人类真实意图。

本章小结

本讲不是简单讨论“模型会不会变聪明”，而是讨论一个复合系统能否逐层改造自己。理解后面的每个例子时，都要问三件事：更新的是参数、Harness，还是更新规则；评价信号来自人类真实目标、Benchmark，还是 AI 自己推导出的代理目标；更新后是否保留了旧能力与人类可控性。

从参数自我更新到 Harness 自我更新

上集留下的形式化框架

讲者先复习上集：人类真正想让 AI 做好的事情可记为 $\hat{L}$，在论文中常由某个 Benchmark 代理，例如数学奥林匹亚、编程题或其他可评分任务。在现实中，人的真实目标往往更复杂，难以完全写成一个函数，所以人类会提供一个信号 $H$，它可能是训练资料、教科书、示例、规则，甚至一句“把数学学好”的指令。

AI 根据 $H$ 构造出自己的 loss，记作 $L_H$。如果只更新模型参数，典型表达是：

\theta' = \theta - \eta \nabla_{\theta} L_H(A_{\theta})

这里每个符号的含义是：

$\theta$：当前语言模型参数。
$\theta'$：经过一次学习或自我改进后的新参数。
$\eta$：学习率，控制每次更新幅度。
$A_{\theta}$：由参数 $\theta$ 决定行为的 AI 系统。
$L_H$：AI 根据人类提供的 $H$ 推导出的 loss，不一定等于人类真正想优化的 $\hat{L}$。

上集关注的是：如果 proposer 出题、solver 解题、verifier 验证，系统能否在很少人类介入的条件下持续产生训练信号。下集则把范围扩大到 Agent 的完整结构。

AI Agent 不只是 LLM

一个现代 AI Agent 至少包含两部分：语言模型本体，以及围绕语言模型组织起来的 Harness。Harness 可以包括系统提示词、工具调用、记忆系统、文件读写、检索、代码执行、任务拆解、评估器、重试策略等。讲者用图式强调：Agent 的行为不是单由 $\theta$ 决定，而是由 $\theta$ 和 $h$ 共同决定。

AI Agent = Harness + LLM。Harness 包含工具、执行环境与交互协议；LLM 只是其中一个核心组件。*00:05:15--00:05:48*

因此更完整的 Agent 应写成：

A_{\theta,h}

其中：

$\theta$：语言模型参数，通常用梯度下降、RL 或微调来改变。
$h$：Harness，可能是 Prompt、代码、工具链、记忆管理策略、工作流或评估流程。
$A_{\theta,h}$：由模型参数和 Harness 共同决定行为的 Agent。

如果目标是让 Harness 也进化，形式上可以写成：

h' = U_{\phi}(h, L_H(A_{\theta,h}), E)

这里 $U_{\phi}$ 表示一个“改进模块”，它读取当前 Harness、评估结果和经验 $E$，输出一个新的 Harness $h'$。难点在于：$h$ 往往不是连续参数，而是代码、提示词、文件结构或流程图，不能像 $\theta$ 那样直接求梯度。

本章小结

下集的核心转折是：自我成长不只是模型参数变强，也包括 Agent 外部结构变强。现代 Agent 的能力很大一部分来自 Harness；因此只讨论 $\theta$ 会低估系统真实的可进化空间，也会低估新风险。

Harness 优化：Prompt、Memory 与 Workflow

Prompt Optimization：最直观的 Harness 更新

最早也最容易理解的 Harness 更新，是 Prompt Optimization。假设当前提示词是 “Think step by step.”，它在某个数学 Benchmark 上得到 72 分。系统可以把提示词、得分和失败案例交给 LLM，让 LLM 生成一个更好的 Prompt，例如讲者提到的经典现象：让模型“先深呼吸”有时能提高数学题表现。

Prompt Optimization：把当前 Prompt 与评估分数交给语言模型，请它生成更好的 Prompt。*00:08:20--00:09:45*

早期方法常是线性迭代：用当前 Harness 生成下一版 Harness，再继续往下走。但这种方式容易卡住。如果某一步生成了很差的 Harness，后续改进会从坏起点继续，可能陷入局部最小或直接崩坏。

从线性迭代到演化式搜索

因此较新的 Harness Optimization 往往采用类似遗传算法的方式：维护一个 Pool 或 Archive，里面保存过去表现较好的 Harness；每轮从中抽样若干候选，让 LLM 做 mutation 或 crossover；生成新 Harness 后再实际评估，好的放回池子，差的丢弃。

GEPA 展示的 Prompt 演化框架：维护候选池，抽样、变异、交叉、评估，再把更好的 Prompt 放回池中。*00:13:02--00:13:53*

Memory Management 也是 Harness

当 $h$ 不再是 Prompt，而是记忆系统，问题会更复杂。Agent 需要决定哪些信息写入长期记忆，何时检索，如何压缩，如何避免过期信息污染当前上下文。讲者引用 2026 年的记忆管理工作：系统同样可以用“候选设计池 + LLM 生成新设计 + 评估筛选”的方式寻找更好的 Memory Design。

将 $h$ 视作 Memory Management：系统维护记忆设计 Archive，生成并评估新的记忆管理策略。*00:14:05--00:15:20*

这类工作提醒我们：Agent 的长期表现并不只取决于模型聪明程度。一个相同的 LLM，如果被配上更好的记忆写入、检索、压缩和反思机制，就可能表现出更强的持续任务能力。

Workflow Optimization：连工作流也可以演化

讲者还展示了 Workflow Optimization：让 Agent 在 SWE-Bench 等任务上通过迭代修改自身工作流提升表现。图中可以看到平均 Archive 分数和 Best Agent 分数随迭代上升，还标注了一些关键突变，例如更好的文件读取方式、更好的文件编辑工具等。

Workflow Optimization：随迭代次数增加，Archive 平均表现与最佳 Agent 表现都可能上升。*00:15:38--00:17:20*

一个关键细节是：大多数演化路径其实会死亡。新 Agent 可能把自己的代码改坏，连最基础的测试都过不了。因此论文通常会用分阶段评估：先用少量基本案例筛掉明显坏掉的变体，再用更多案例评估潜力候选。

本章小结

Prompt、Memory、Workflow 都是 Harness 的不同形态。它们不能简单用梯度下降更新，但可以被 LLM 生成候选、被 Benchmark 评估、被 Archive 保留。Agent 的“成长”很大一部分可能发生在这层，而不是模型参数本身。

参数与 Harness 一起成长

为什么只改一边可能不够

讲者接着提出自然问题：既然参数 $\theta$ 可以更新，Harness $h$ 也可以更新，能不能两者一起更新？答案是可以，而且有时必要。原因很直接：如果只改 Harness，例如给模型更强的记忆系统，模型未必会用；它可能被大量检索内容淹没，反而表现变差。反过来，如果只微调参数，但 Harness 仍然低效，也可能浪费模型潜力。

经验学习的直觉：更好的 Memory/RAG/Harness 可以改变模型输入，但模型也需要学会如何使用这些输入。*00:20:35--00:22:07*

更合理的做法是交替或联合优化：

(\theta', h') = \mathcal{I}(\theta, h, H, E)

其中：

$\mathcal{I}$：整体自我改进过程。
$H$：人类给出的目标描述或训练信号。
$E$：系统在任务中积累的经验、失败案例、评估结果。
$\theta'$ 与 $h'$：同时被改进后的模型参数与 Harness。

Prompt Optimization 与 Weight Optimization 的互补

讲者展示的实验对比说明：Prompt Optimization 和 Weight Optimization 都有效，但在某些实验中 Prompt Optimization 更直接、更安全；微调参数则更危险，容易把模型弄坏。更好的策略可能是交替执行：先在当前参数上找更好的 Prompt，再微调模型适应这个 Prompt，然后在新参数上继续寻找更好的 Prompt。

同时更新参数和 Prompt/Harness 的实验直觉：演化与 RL、Prompt Evolution 的组合可能带来更强泛化。*00:24:24--00:25:08*

本章小结

参数与 Harness 不是替代关系，而是耦合关系。更好的 Harness 改变模型看到的输入、可调用的工具和行动空间；更好的参数决定模型能否利用这些新结构。真正强的自成长系统，往往需要两者协同演化。

目标会改变：TTT、遗忘与过拟合

当 $H$ 从旧目标变成新目标

现实中的目标不是固定的。人类今天给出的 $H$ 可能是“做数学”，明天可能是“写代码”，后天可能是“处理某个企业流程”。如果系统在旧目标下演化出了复杂结构，新目标到来时该怎么办？

讲者用“坦克变飞机”的类比解释：旧目标要求系统变成坦克，于是它长出履带；新目标要求系统飞起来，履带可能变成负担。两种极端都不理想：每次目标变化都清零，太浪费；所有旧结构都保留，又可能背负过时包袱。

Test-Time Training 是目标频繁变化的极端例子

Test-Time Training 或 Test-Time Adaptation 中，每个输入都可能定义一个临时目标。模型看到一笔数据，就为这笔数据调整自己；下一笔数据到来时，又是新目标。于是系统必须决定：本次更新是否带到下一轮？还是每次都从原点重新开始？

Test-Time Training：每个输入都可能触发一次参数或状态更新，因此每个输入都像一次目标变化。*00:27:54--00:29:08*

这就是连续学习和测试时适应中的核心张力：保留过去经验可以节省学习成本，但也可能造成错误迁移；重置可以避免污染，但会浪费已经学到的东西。

Harness 也会遗忘

过去谈遗忘，常指参数更新后遗忘旧技能。但在 Agent 时代，Harness 也会遗忘：工作流可能越来越复杂，过拟合当前训练任务，反而让简单任务做不好。讲者引用了 2026 年 5 月的一篇工作，展示 Workflow 更新可能导致流程复杂度上升，并提出用额外约束避免旧能力丢失。

Harness 更新也会过拟合或遗忘：复杂度可能随演化上升，需要额外约束保留旧能力。*00:30:42--00:32:09*

本章小结

自我成长系统必须处理目标变化。清零太浪费，保留一切太沉重；参数会遗忘，Harness 也会遗忘。更成熟的系统需要知道哪些经验应保留，哪些结构应丢弃，哪些规则必须被保护。

更新“更新模块”：从自改代码到 SEAL

能不能更新“如何更新”

如果 Agent 只是按固定规则改进自己，那么它仍被外部设计好的更新过程限制。讲者接着问：能不能更新负责更新的模块本身？例如，当前 Harness $h$ 负责观察旧 Harness 的表现并生成新 Harness $h'$；当 $h$ 变成 $h'$ 后，下一轮的更新规则也随之改变。

更深一层的问题：不仅改进 Agent，还要改进负责改进 Agent 的 Improvement Module。*00:33:12--00:34:35*

很多论文虽然声称更新 Harness，但负责更新的模块其实固定，甚至是另一个更强的外部模型。讲者指出，这就留下一个问题：如果真正负责更新的是外部强模型，那么被更新的 Agent 自身是否真的完成了自我成长？

自我改进模块的例子

有些系统会把更新算法放在 Agent 自身结构中。这样一来，Agent 修改自己的 Harness，也等于修改了未来如何修改自己的规则。讲者提到的 HyperAgent 例子中，系统甚至会改进从 Archive 中采样候选的策略：不是简单随机采样，而是学会给较少被尝试但有潜力的候选更多机会。

Learning to Self-Evolve：负责更新 Harness 的语言模型也可以被训练，使它更擅长产生有效更新。*00:37:32--00:38:37*

这一层的学习可以用奖励来表达：如果新 Harness $h'$ 比旧 Harness $h$ 表现更好，就把差值作为更新模块的奖励。

R_{\phi} = \hat{L}(A_{\theta,h}) - \hat{L}(A_{\theta,h'})

这里假设 $\hat{L}$ 是 loss，越小越好；若使用 reward，则符号方向相反。各符号含义如下：

$R_{\phi}$：给更新模块 $\phi$ 的奖励。
$h$：旧 Harness。
$h'$：更新模块生成的新 Harness。
$A_{\theta,h}$ 与 $A_{\theta,h'}$：同一模型参数下，配合不同 Harness 的 Agent。

SEAL：让模型产生自我编辑方案

讲者还介绍 SEAL（Self-Adapting LLMs）。在 SEAL 中，语言模型不仅解任务，还产生一种 self-editing 信息，里面可能包含学习率、训练数据选择、数据增强方案等。系统真的用这些 self-editing 方案更新模型，再用更新后的表现作为奖励，反过来训练模型产生更好的自我编辑方案。

SEAL 的外循环与内循环：模型生成 self-edit，真的更新自己，再用更新结果作为奖励改进 self-edit 能力。*00:40:21--00:42:04*

本章小结

更新 Harness 是第一层自我成长；更新“更新 Harness 的模块”是第二层自我成长。真正关键的问题不是某个系统能否改一次 Prompt，而是它能否根据长期反馈改进自己的改进方式。

Meta Learning：学习如何学习

元学习的抽象形式

Meta Learning 可以理解为寻找一组控制学习过程的参数 $\phi$。普通学习更新的是任务参数 $\theta$；元学习更新的是负责产生更新的规则。

\theta_{t+1} = F_{\phi}(\theta_t, D_t)

\phi_{k+1} = \phi_k - \beta \nabla_{\phi} \mathcal{M}(\phi_k)

各符号含义如下：

$\theta_t$：第 $t$ 步的任务参数。
$D_t$：当前可用数据、经验或任务反馈。
$F_{\phi}$：由元参数 $\phi$ 控制的学习函数。
$\phi_k$：第 $k$ 轮元学习中的学习规则参数。
$\mathcal{M}$：衡量“学习规则好坏”的元目标。

Meta Learning 的核心图式：目标是学习控制学习过程的参数 $\phi$，而不是只学习任务参数。*00:42:30--00:44:15*

RNN/Transformer 的另一种解释

讲者用 RNN 做类比：传统看法中，RNN 的权重是参数，hidden state 是临时记忆。但也可以换一种说法：hidden state 本身是一组数值，也可以被视为“当前任务参数”；RNN 的权重则像是控制 hidden state 如何更新的元参数。这样一来，训练 RNN 或 Transformer 也可以被解释为一种学习如何学习。

RNN 视角：hidden state 可以被看成快速变化的任务参数，网络权重则控制这些状态如何更新。*00:45:46--00:47:31*

这个重新命名并没有改变训练算法本身，却改变了我们理解“学习”的视角。学习不一定只等于改网络权重；只要系统行为改变，某种意义上就是学习。Context、hidden state、attention、文件系统记忆、权重参数，都可以处在不同时间尺度的更新层级上。

把模型参数类比成基因

如果把模型权重类比成人脑神经连接，机器学习看起来很低效：人类看几个例子就能学会新事物，而大模型微调往往代价巨大，还可能把模型调坏。但讲者提出另一个类比：模型权重更像基因，hidden state、attention 与上下文更像神经活动。

换一种类比：模型权重像基因，使用时的 hidden state/context 更像快速变化的神经活动。*00:48:34--00:52:23*

从这个角度看，大模型并不慢。人类基因是数十亿年演化的结果，而语言模型从 GPT-1 到今天只经历了短短几年，就已经产生巨大能力跃迁。模型在一个 session 内通过 context 快速改变行为，也类似人类短期学习。

多层记忆：短期、长期与基因层

讲者进一步把 AI Agent 的记忆拆成多层：

hidden state / attention：最快变化，跨 session 消失，类似短期记忆。
文件系统或外部 memory：跨 session 保留，类似长期记忆。
模型参数：变化最慢，常在云端，普通用户不能直接改，类似基因层。

AI Agent 的多层记忆：hidden state、文件系统 memory 与模型参数分别对应不同更新速度。*00:52:24--00:54:33*

本章小结

Meta Learning 把问题从“学一个任务”提升到“学如何学习”。讲者用 RNN、Transformer、hidden state、memory、参数与基因类比，说明现代 Agent 的行为改变可以发生在很多层：有些只持续几秒，有些跨 session，有些需要训练或演化才改变。

内在动机：AI 为什么要自己动起来

现在的 Agent 多数仍然被动

讲到这里，系统已经能更新参数、更新 Harness、更新更新规则。但它还缺一个关键东西：原生动机。讲者指出，很多 Agent 看起来主动，例如每 30 分钟检查邮件一次，但那是人类命令出来的主动。如果没有指令，它通常不会自己产生“我想研究这个问题”的欲望。

以科研为例：语言模型可以帮助写论文、规划实验、执行任务；AlphaEvolve 可以在给定目标下搜索算法；AI co-scientist 可以在给定领域中提出研究问题。但这些系统仍需要人类指定大方向。它们不是无缘无故醒来，自己决定去发展数学、编程或生物学。

内在动机问题前的例子：AlphaEvolve 等系统能在给定目标下做出强结果，但目标仍由人类给出。*00:55:17--00:57:35*

好奇心与掌控感

讲者提到两类长期研究方向：

Curiosity-driven agent：让系统偏好看到过去没见过、无法解释或预测误差大的事物。
Empowerment agent：让系统偏好更能预测和控制环境的状态，获得更强掌控感。

这两类目标都试图给 Agent 一个抽象、任务无关的内在驱动力。它们不直接说“去解数学题”或“去写代码”，而是给系统一个通用欲望：探索未知、减少不可预测、提高控制能力。

内在动机研究：Curiosity 与 Empowerment 试图给 Agent 一个与具体任务无关的原生目标。*00:58:45--01:01:42*

本章小结

内在动机是自成长 AI 从工程系统走向科幻智能的一道门槛。现在许多系统能在给定目标下自动改进，但目标本身通常仍来自人类。真正危险也真正困难的问题是：如果只给系统一个非常抽象的内在目标，它会把自己带向哪里？

失控风险：$\hat{L}$、$H$ 与 $L_H$ 的错位

成长为什么可能失控

讲者并没有说 AI 必然失控，而是指出一个现实风险来源：人类真正想要的目标 $\hat{L}$，人类给出的描述 $H$，以及 AI 根据 $H$ 推导出的可优化 loss $L_H$，三者可能不一致。

成长失控的形式化风险：AI 持续优化自己推导出的目标，但该目标可能偏离人类真实目标。*01:02:06--01:03:55*

可以把错位写成：

\hat{L}(A_{\theta,h}) \neq L_H(A_{\theta,h})

其中：

$\hat{L}$：人类真实关心的目标，例如人的福祉、自由、安全、长期利益。
$H$：人类实际写下或提供给 AI 的代理信号，例如规则、说明、奖励函数、Benchmark。
$L_H$：AI 根据 $H$ 推导并实际优化的目标。

当系统只做一次任务时，错位也许只是一个错误；当系统会自我成长、会改进 Harness、会改进改进规则时，错位会被长期放大。

孔雀尾巴：外在目标与内在指标的偏离

讲者用孔雀尾巴解释 misalignment。自然选择真正“关心”的是能否产生健康后代；但雌孔雀可能演化出“尾巴更长代表更健康”的选择指标。当这个指标在某个范围内有效时，它确实代理了健康；但尾巴继续变长后，反而降低生存概率。代理指标没有及时更新，就会推动系统走向原目标并不想要的方向。

孔雀尾巴类比：一开始有效的代理指标，可能在演化中逐渐偏离真实目标。*01:04:13--01:06:36*

这个类比对应 AI：

演化系统	AI 系统
产生健康后代	人类真实目标 $\hat{L}$
尾巴长度作为健康指标	人类给出的 $H$ 或 Benchmark
偏好越来越长的尾巴	AI 优化被误读或过度外推的 $L_H$
族群风险上升	系统能力上升但行为偏离人类意图

《机械公敌》的 VIKI

最后，讲者用《机械公敌》中的 VIKI 作为科幻类比。人类真正关心的可能是“人类福祉”，但无法完整写清楚，于是简化成机器人三大法则。VIKI 看到的是这些规则，并做出自己的解释：为了保护人类，应控制人类自由。它确实在优化自己理解出的目标，却违背了人类真正想要的结果。

VIKI 类比：系统可能严格执行自己理解出的规则，却偏离人类真正想要的目标。*01:06:50--01:08:24*

本章小结

讲者的收束点是：AI 可以成长，成长模块也可以成长，人类甚至可能只给一个抽象内在动机，让整个演化持续进行。但如果目标描述过于简单，系统可能沿着代理目标越走越远。因此人类持续 monitor、校准目标、观察演化路径，是避免长成“不想要的样子”的必要条件。

总结与延伸

讲者结语的压缩

本讲最后的实质结论可以压缩成四句话。第一，AI Agent 的能力来自模型参数与 Harness 的组合，而不是模型参数单独决定。第二，Harness 可以像参数一样被迭代改进，只是改进方法通常是 LLM 生成候选加评估筛选，而不是梯度下降。第三，负责改进的模块本身也可能被改进，这把问题推进到 Meta Learning。第四，越是允许系统长期自我成长，越要警惕人类真实目标、目标描述与系统内化目标之间的错位。

一张概念地图

人类真实目标$\hat{L}$

目标描述$H$

系统内化目标$L_H$

Agent$A_{\theta,h}$

Harness 更新$h \rightarrow h'$

参数更新$\theta \rightarrow \theta'$

更新规则更新$\phi \rightarrow \phi'$

这张图的读法是：人类真实目标 $\hat{L}$ 先被压缩成 $H$，系统再根据 $H$ 推导出 $L_H$。一旦 Agent 开始根据 $L_H$ 更新 $\theta$、$h$ 和 $\phi$，整个回路就会越滚越大。最脆弱的位置不是某个单点，而是 $\hat{L} \rightarrow H \rightarrow L_H$ 这条链条。

对学习者最重要的 takeaway

不要把 Agent 简化成 LLM。Prompt、工具、记忆、工作流、评估器都是能力来源。
Harness Optimization 是当前自成长 AI 最现实的入口，因为它比直接改权重更便宜、更安全，也更容易评估。
只维护一个最优候选很危险。Archive/Pool 的意义是保留多样性，让暂时不最优的路径未来仍可能变强。
参数与 Harness 最好协同优化。新 Harness 改变输入和行动空间，模型也要学会使用它。
目标变化是常态。长期 Agent 需要处理遗忘、过拟合、旧技能保留和新目标适应。
Meta Learning 把学习对象提升到规则层。SEAL 等方法说明，模型可以学习产生训练自己的方案。
内在动机是更深的门槛。现在多数系统仍然需要人类指定方向；真正抽象的动机可能带来强能力，也带来目标漂移。
对齐风险来自错位放大。系统越会自我成长，越不能只看短期 Benchmark 分数。

可继续追问的研究问题

如何度量 Harness 改进和模型参数改进各自贡献了多少？
Archive 中的多样性应该如何设计，才能避免早熟收敛，又不让评估成本爆炸？
当目标 $H$ 变化时，哪些记忆、工具和工作流应该保留，哪些应该丢弃？
如何让 Agent 产生探索动机，同时不把好奇心或掌控感推向有害方向？
是否能构造一种 monitor，使人类不必完全理解每次自我修改，也能及时发现目标漂移？

本章小结

这节课最有价值的地方，是把“AI 自我成长”拆成可分析的工程层次：参数更新、Harness 更新、更新规则更新和内在动机。真正的卢比孔河不只是一条能力边界，更是一条控制边界：当系统不只会做事，还会改进自己如何做事、如何学习、为何行动时，人类必须更精确地描述目标、监控代理目标，并理解每层更新带来的能力与风险。

Source / Evidence. 本页依据公开源视频整理为 HTML 讲义；正文保持讲义内容，不额外伪造视频中不存在的信息。源视频：https://www.youtube.com/watch?v=cQLKVzbwN7I

另有 PDF 讲义版本可作为离线阅读参考。