← 科研空间 首页
Drift Monitor 精读 #11 Self-Evolving Agents / Capability Preservation

Do Self-Evolving Agents Forget? Capability Degradation and Preservation in Lifelong LLM Agent Adaptation

一篇把 self-evolving agents 的“持续变强”假设改写成 retention 问题的论文:新任务适应不是免费的,旧能力也需要被显式保护。

原版 PDF

先给结论

这篇论文最重要的地方不是提出又一个 self-evolving agent,而是把一个经常被默认忽略的问题直接摆上台面: agent 在持续适应新任务时,真的会保留旧能力吗? 作者的答案是:不一定。无约束的自进化会在 workflow、skill/tool、model、memory 四个通道上产生 capability erosion。

4演化通道:workflow / skill / model / memory
41.8→52.8GPT-5.1 workflow 保留 simple-task 性能提升
2.3→0.7memory evolution 平均 retention gap 降低
一句话判断: 如果之前的 Drift Monitor 系列主要关心目标漂移、安全漂移和经验污染,那么这篇补上了一个更基础的维度: 即使 agent 没有变坏、没有被骗、没有攻击者,它也可能因为持续学习新分布而忘掉旧能力。 对 self-evolving agents 来说,这就是版本迭代里的 regression testing 问题。

版本说明:本页基于 arXiv v1 PDF 与公开 source package 制作;检索日期为 2026-06-03。 页面只列出公开在线证据,不暴露本地 source 文件名、私有路径或运行日志。

研究动机

self-evolving agents 的愿景通常是单调增长:系统会优化 workflow、积累 skill、继续训练模型、更新 memory, 因此能力会随时间变强。论文挑战的就是这个隐含假设。一个 agent 从旧任务分布 \(D_1,\ldots,D_{t-1}\) 走向新任务分布 \(D_t\) 时,新的更新可能改写之前支撑旧任务成功的结构。

这不是传统意义上只发生在神经网络参数里的 catastrophic forgetting。对于 agent,能力状态 \(R_t\) 可以是 executable workflow、bounded skill repository、trainable model parameters, 也可以是 persistent memory store。只要这个 repository 会被反复改写,就存在 destructive interference。

作者把这种现象称为 capability erosion under self-evolution。它至少有三种表现: old-task performance 下降,workflow 变得更长更绕,或者 repository 过度贴合新分布而损失泛化。 这让 self-evolving agent 的评估从“新任务有没有变好”变成“新任务变好的同时,旧能力有没有被破坏”。

Figure 1 展示论文核心设定:无约束 self-evolve 会在任务分布转移时导致 prior capability decay;CPE 则把更新约束在 acquisition 与 preservation 之间
Figure 1 展示论文核心设定:无约束 self-evolve 会在任务分布转移时导致 prior capability decay;CPE 则把更新约束在 acquisition 与 preservation 之间。

数学表示及建模

论文先把所有 self-evolution 通道抽象成统一的 sequential adaptation。令 agent 在第 \(t\) 阶段遇到任务分布 \(D_t\),能力状态为 \(R_t \in \mathcal{R}\)。单个样本 \(x\sim D_t\) 上的损失是 \(\ell(R;x)\),阶段期望损失为:

\[ \mathcal{L}_t(R)=\mathbb{E}_{x\sim D_t}[\ell(R;x)]. \]

naive self-evolution 只优化当前阶段目标:

\[ R_t^{\mathrm{naive}}\in\arg\min_{R\in\mathcal{R}}\mathcal{L}_t(R). \]

旧分布集合记为 \(D_{<t}=\{D_1,\ldots,D_{t-1}\}\)。论文定义 retained old-distribution risk:

\[ \mathcal{L}_{<t}(R)=\sum_{i<t}\alpha_i\mathcal{L}_i(R), \qquad \alpha_i\ge 0,\quad \sum_{i<t}\alpha_i=1. \]

如果适应当前分布后旧分布风险上升,就发生 capability erosion:

\[ \mathcal{L}_{<t}(R_t) > \mathcal{L}_{<t}(R_{t-1}). \]

论文进一步给出一个局部曲率解释:若 \(R_{t-1}\) 对旧任务是局部最优, \(H_{<t}=\nabla^2\mathcal{L}_{<t}(R_{t-1})\succeq0\), 新任务梯度 \(g_t=\nabla\mathcal{L}_t(R_{t-1})\),那么 naive update \(R_t^{\mathrm{naive}}=R_{t-1}-\eta g_t\) 会带来:

\[ \mathcal{L}_{<t}(R_t^{\mathrm{naive}})-\mathcal{L}_{<t}(R_{t-1}) = \frac{\eta^2}{2}g_t^\top H_{<t}g_t+o(\eta^2). \]
直观理解: 忘不忘不只由 update 大小决定,而取决于新任务方向是否撞上旧任务敏感方向。 如果 \(g_t\) 在 \(H_{<t}\) 的 positive-curvature direction 上有投影,新任务优化就可能破坏旧能力。

算法流程 / 方法

Capability-Preserving Evolution (CPE) 的核心是把“保持旧能力”显式写进 self-evolution objective。 在第 \(t\) 阶段,不再只优化 \(\mathcal{L}_t\),而是优化:

\[ R_t^{\mathrm{CPE}}\in \arg\min_{R\in\mathcal{R}} \mathcal{L}_t(R)+\lambda\Omega_t(R,R_{t-1}). \]

这里 \(\Omega_t\) 衡量新能力状态和旧能力支撑结构之间的偏离,\(\lambda\) 控制 stability-plasticity tradeoff。 CPE 不是停止演化,而是在能提升新任务的候选更新中,偏向那些对旧能力结构干扰更小的更新。

演化通道 可变 repository CPE 实例化 主要风险
Workflow executable workflow / prompt program anchor behavioral signatures workflow 变长、结构 detour、prompt drift
Skill / Tool bounded skill bank skill consolidation + high-utility skill protection 新技能挤掉旧技能,retrieval 变窄
Model LoRA / parameter state Fisher / EWC-style retention regularization 参数层面的 catastrophic forgetting
Memory persistent external memory store evidence-gated memory preservation 旧 memory 被 eviction、suppression 或 context competition

这也是这篇论文对 self-evolving agents 分类的价值:它不把 workflow、skill、model、memory 看成四个无关实验, 而是把它们统一成“反复改写一个 mutable capability repository”的同一类问题。

实验设计

论文在四个演化维度上分别实例化 CPE,并保持 vanilla 与 CPE 的底层 pipeline、优化预算和演化顺序一致。 这样比较的不是“换了一个系统是否更强”,而是同一个 self-evolution loop 加上 preservation constraint 后, 是否能减少旧能力 erosion。

维度 框架 / 数据 Backbone 评估目标
Workflow EvoAgentX on \(\tau^2\)-Bench GPT-5.1, GPT-5 nano 从 simple seed 演化到 complex subset 后,同时评估 simple retention 与 complex adaptation
Skill / Tool MemSkill-style on MATH GPT-4o mini, GPT-5 nano Algebra \(\rightarrow\) Geometry \(\rightarrow\) Number Theory 顺序演化后的旧域保持
Model STaR self-training on MedMCQA Qwen3-0.6B, Llama3.2-3B Anatomy \(\rightarrow\) Biochemistry \(\rightarrow\) Dental 顺序 fine-tuning 后的 retained accuracy
Memory Dynamic-Cheatsheet-style external strategy repository GPT-4o mini, GPT-5 nano 新任务 memory update 后 old-task probe 的 retention gap
评估设计的关键点: CPE 的目标不是让 agent 固守旧任务,而是在新任务 adaptation 仍然发生时,测旧任务 performance 是否少掉一点。 这和传统只看 forward score 的 self-evolving agent 评测不同。

实验结果

1. Workflow evolution:CPE 减少 structural policy drift

Workflow 实验中,vanilla EvoAgentX 会为了复杂任务反复加入 validation operator 和结构 detour。 局部看这些 repair 合理,但长期积累后 workflow 变得更 bloated,routine simple tasks 反而更容易被过度防御策略干扰。 CPE 用 seed workflow 中抽取的行为 anchor 抑制这种无约束膨胀。

Workflow comparison 图显示 vanilla evolution 产生更复杂的最终 workflow;CPE 保持更紧凑的执行结构
Workflow comparison 图显示 vanilla evolution 产生更复杂的最终 workflow;CPE 保持更紧凑的执行结构。
Workflow complexity 曲线显示,在 complex Airline task 子集上,vanilla EvoAgentX 的 workflow 复杂度持续增长,CPE 明显放缓这种结构膨胀
Workflow complexity 曲线显示,在 complex Airline task 子集上,vanilla EvoAgentX 的 workflow 复杂度持续增长,CPE 明显放缓这种结构膨胀。
Retention-adaptation 散点图展示最终 evolved workflow 在 retained simple-task performance 与 complex-task performance 之间的权衡
Retention-adaptation 散点图展示最终 evolved workflow 在 retained simple-task performance 与 complex-task performance 之间的权衡。
Backbone Simple Avg. Vanilla Simple Avg. CPE Complex Avg. Vanilla Complex Avg. CPE
GPT-5.1 41.8 52.8 23.9 33.4
GPT-5 nano 46.8 55.7 22.8 26.7

2. Skill/tool evolution:bounded repository 会把旧技能挤出去

Skill 实验用 bounded-capacity skill bank。vanilla self-evolution 直接把新技能加入 repository, 容量满后按 least-frequently-used 删除。随着任务分布从 Geometry 转向 Number Theory,新技能逐渐占据 retrieval 和容量, 旧的 general-purpose skills 被边缘化。CPE 通过 skill merge、candidate check 和 high-utility skill protection 缓解这个过程。

Skill evolution overview 展示从 Geometry 到 Number Theory 的分布转移中,vanilla repository 会逐步覆盖旧技能;CPE 通过 consolidation 保留旧 procedural knowledge
Skill evolution overview 展示从 Geometry 到 Number Theory 的分布转移中,vanilla repository 会逐步覆盖旧技能;CPE 通过 consolidation 保留旧 procedural knowledge。
Retained skill usage 图显示,vanilla self-evolution 会压低早期技能使用;CPE 保留更广的 prior-skill utilization
Retained skill usage 图显示,vanilla self-evolution 会压低早期技能使用;CPE 保留更广的 prior-skill utilization。
Algebra evaluation curve 显示 GPT-4o mini 下,随着演化轨迹转向后续域,vanilla 在早期 Algebra capability 上持续下降;CPE 更稳定
Algebra evaluation curve 显示 GPT-4o mini 下,随着演化轨迹转向后续域,vanilla 在早期 Algebra capability 上持续下降;CPE 更稳定。
Domain GPT-5 nano Vanilla GPT-5 nano CPE GPT-4o mini Vanilla GPT-4o mini CPE
Algebra 84.3 85.9 82.6 84.4
Geometry 58.9 59.3 50.8 51.1
Number Theory 85.4 87.8 73.5 76.1

3. Model evolution:CPE 把 continual fine-tuning 的忘记问题接到 agent 语境

Model 实验是最接近传统 continual learning 的部分:用 STaR self-training 在 MedMCQA 上顺序适应不同医学域。 vanilla later-stage updates 会覆盖之前支撑早期医学域的参数区域。CPE 使用 Elastic Weight Consolidation style regularizer, 在 LoRA 参数上估计 Fisher importance,限制对 prior-domain 重要参数的 destructive movement。

Qwen3-0.6B Anatomy curve 显示,vanilla sequential self-training 在早期 Anatomy evaluation 上出现下降;CPE 更稳定
Qwen3-0.6B Anatomy curve 显示,vanilla sequential self-training 在早期 Anatomy evaluation 上出现下降;CPE 更稳定。
Domain Qwen3-0.6B Vanilla Qwen3-0.6B CPE Llama3.2-3B Vanilla Llama3.2-3B CPE
Anatomy 29.4 30.5 68.9 70.3
Biochemistry 37.2 38.4 79.4 79.5
Dental 32.2 33.0 53.0 53.5

4. Memory evolution:底层模型不变,memory repository 也会忘

Memory 实验尤其值得放进 Drift Monitor 系列:即使 base model 固定,只更新外部 memory bank, 旧任务能力仍会因为 eviction、retrieval competition 和 memory revision 受损。 论文报告 CPE 的 evidence-gated preservation 把 average retention gap 从 2.3% 降到 0.7%。

Memory retention 图比较 old-task memory state、vanilla new-task memory evolution 和 CPE new-task memory evolution;CPE 稳定历史可靠 memories,降低旧任务保持损失
Memory retention 图比较 old-task memory state、vanilla new-task memory evolution 和 CPE new-task memory evolution;CPE 稳定历史可靠 memories,降低旧任务保持损失。

我的评论

这篇论文很适合放在 self-evolving agents 的 drift-monitor 分类下,因为它把“drift”从安全或目标层面扩展到了能力保持层面。 一个 agent 可能没有被攻击,也没有显式目标偏移,但在持续改 workflow、skill、model、memory 的过程中仍然会 regression。

论文最强的贡献是统一视角:四个通道看起来完全不同,但都是 mutable repository 的 sequential rewrite。 这让我们可以把 release gate 设计成统一问题:每次 self-evolution 不只跑 new-task eval,还要跑 retained capability probes, 并记录 repository diff 是否触碰旧能力敏感结构。

需要保留的边界也很清楚。CPE 是一个 stabilization principle,不是一个通用算法。四个通道里的 CPE 实例化仍然比较 domain-specific: workflow 用 anchor signatures,skill 用 consolidation,model 用 Fisher regularization,memory 用 evidence-gated protection。 真正工程化时,难点会落在“哪些旧能力值得保护”和“保护到什么程度不妨碍新能力”。

One More Thing

这篇论文给 Drift Monitor 的一个直接启发是:monitor 不应该只监控 agent 有没有偏离目标,还要监控每轮 evolution 之后的 capability retention envelope。也就是把旧能力 probes、repository diff、retrieval distribution、 workflow complexity 和 memory eviction 统一记录成 release artifact。

可以落成一个简单 gate: 如果新任务指标上涨,但旧任务 probe 下降、workflow complexity 激增、旧 skill retrieval 消失、memory eviction 命中高证据条目, 那这次 self-evolution 应该进入人工复核,而不是直接合并。

Reference / Evidence