Do Self-Evolving Agents Forget? Capability Degradation and Preservation in Lifelong LLM Agent Adaptation

先给结论

这篇论文最重要的地方不是提出又一个 self-evolving agent，而是把一个经常被默认忽略的问题直接摆上台面： agent 在持续适应新任务时，真的会保留旧能力吗？ 作者的答案是：不一定。无约束的自进化会在 workflow、skill/tool、model、memory 四个通道上产生 capability erosion。

4演化通道：workflow / skill / model / memory

41.8→52.8GPT-5.1 workflow 保留 simple-task 性能提升

2.3→0.7memory evolution 平均 retention gap 降低

一句话判断： 如果之前的 Drift Monitor 系列主要关心目标漂移、安全漂移和经验污染，那么这篇补上了一个更基础的维度： 即使 agent 没有变坏、没有被骗、没有攻击者，它也可能因为持续学习新分布而忘掉旧能力。 对 self-evolving agents 来说，这就是版本迭代里的 regression testing 问题。

版本说明：本页基于 arXiv v1 PDF 与公开 source package 制作；检索日期为 2026-06-03。页面只列出公开在线证据，不暴露本地 source 文件名、私有路径或运行日志。

研究动机

self-evolving agents 的愿景通常是单调增长：系统会优化 workflow、积累 skill、继续训练模型、更新 memory，因此能力会随时间变强。论文挑战的就是这个隐含假设。一个 agent 从旧任务分布 \(D_1,\ldots,D_{t-1}\) 走向新任务分布 \(D_t\) 时，新的更新可能改写之前支撑旧任务成功的结构。

这不是传统意义上只发生在神经网络参数里的 catastrophic forgetting。对于 agent，能力状态 \(R_t\) 可以是 executable workflow、bounded skill repository、trainable model parameters，也可以是 persistent memory store。只要这个 repository 会被反复改写，就存在 destructive interference。

作者把这种现象称为 capability erosion under self-evolution。它至少有三种表现： old-task performance 下降，workflow 变得更长更绕，或者 repository 过度贴合新分布而损失泛化。这让 self-evolving agent 的评估从“新任务有没有变好”变成“新任务变好的同时，旧能力有没有被破坏”。

Figure 1 展示论文核心设定：无约束 self-evolve 会在任务分布转移时导致 prior capability decay；CPE 则把更新约束在 acquisition 与 preservation 之间。

数学表示及建模

论文先把所有 self-evolution 通道抽象成统一的 sequential adaptation。令 agent 在第 \(t\) 阶段遇到任务分布 \(D_t\)，能力状态为 \(R_t \in \mathcal{R}\)。单个样本 \(x\sim D_t\) 上的损失是 \(\ell(R;x)\)，阶段期望损失为：

\[ \mathcal{L}_t(R)=\mathbb{E}_{x\sim D_t}[\ell(R;x)]. \]

naive self-evolution 只优化当前阶段目标：

\[ R_t^{\mathrm{naive}}\in\arg\min_{R\in\mathcal{R}}\mathcal{L}_t(R). \]

旧分布集合记为 \(D_{<t}=\{D_1,\ldots,D_{t-1}\}\)。论文定义 retained old-distribution risk：

\[ \mathcal{L}_{<t}(R)=\sum_{i<t}\alpha_i\mathcal{L}_i(R), \qquad \alpha_i\ge 0,\quad \sum_{i<t}\alpha_i=1. \]

如果适应当前分布后旧分布风险上升，就发生 capability erosion：

\[ \mathcal{L}_{<t}(R_t) > \mathcal{L}_{<t}(R_{t-1}). \]

论文进一步给出一个局部曲率解释：若 \(R_{t-1}\) 对旧任务是局部最优， \(H_{<t}=\nabla^2\mathcal{L}_{<t}(R_{t-1})\succeq0\)，新任务梯度 \(g_t=\nabla\mathcal{L}_t(R_{t-1})\)，那么 naive update \(R_t^{\mathrm{naive}}=R_{t-1}-\eta g_t\) 会带来：

\[ \mathcal{L}_{<t}(R_t^{\mathrm{naive}})-\mathcal{L}_{<t}(R_{t-1}) = \frac{\eta^2}{2}g_t^\top H_{<t}g_t+o(\eta^2). \]

直观理解： 忘不忘不只由 update 大小决定，而取决于新任务方向是否撞上旧任务敏感方向。如果 \(g_t\) 在 \(H_{<t}\) 的 positive-curvature direction 上有投影，新任务优化就可能破坏旧能力。

算法流程 / 方法

Capability-Preserving Evolution (CPE) 的核心是把“保持旧能力”显式写进 self-evolution objective。在第 \(t\) 阶段，不再只优化 \(\mathcal{L}_t\)，而是优化：

\[ R_t^{\mathrm{CPE}}\in \arg\min_{R\in\mathcal{R}} \mathcal{L}_t(R)+\lambda\Omega_t(R,R_{t-1}). \]

这里 \(\Omega_t\) 衡量新能力状态和旧能力支撑结构之间的偏离，\(\lambda\) 控制 stability-plasticity tradeoff。 CPE 不是停止演化，而是在能提升新任务的候选更新中，偏向那些对旧能力结构干扰更小的更新。

演化通道	可变 repository	CPE 实例化	主要风险
Workflow	executable workflow / prompt program	anchor behavioral signatures	workflow 变长、结构 detour、prompt drift
Skill / Tool	bounded skill bank	skill consolidation + high-utility skill protection	新技能挤掉旧技能，retrieval 变窄
Model	LoRA / parameter state	Fisher / EWC-style retention regularization	参数层面的 catastrophic forgetting
Memory	persistent external memory store	evidence-gated memory preservation	旧 memory 被 eviction、suppression 或 context competition

这也是这篇论文对 self-evolving agents 分类的价值：它不把 workflow、skill、model、memory 看成四个无关实验，而是把它们统一成“反复改写一个 mutable capability repository”的同一类问题。

实验设计

论文在四个演化维度上分别实例化 CPE，并保持 vanilla 与 CPE 的底层 pipeline、优化预算和演化顺序一致。这样比较的不是“换了一个系统是否更强”，而是同一个 self-evolution loop 加上 preservation constraint 后，是否能减少旧能力 erosion。

维度	框架 / 数据	Backbone	评估目标
Workflow	EvoAgentX on \(\tau^2\)-Bench	GPT-5.1, GPT-5 nano	从 simple seed 演化到 complex subset 后，同时评估 simple retention 与 complex adaptation
Skill / Tool	MemSkill-style on MATH	GPT-4o mini, GPT-5 nano	Algebra \(\rightarrow\) Geometry \(\rightarrow\) Number Theory 顺序演化后的旧域保持
Model	STaR self-training on MedMCQA	Qwen3-0.6B, Llama3.2-3B	Anatomy \(\rightarrow\) Biochemistry \(\rightarrow\) Dental 顺序 fine-tuning 后的 retained accuracy
Memory	Dynamic-Cheatsheet-style external strategy repository	GPT-4o mini, GPT-5 nano	新任务 memory update 后 old-task probe 的 retention gap

评估设计的关键点： CPE 的目标不是让 agent 固守旧任务，而是在新任务 adaptation 仍然发生时，测旧任务 performance 是否少掉一点。这和传统只看 forward score 的 self-evolving agent 评测不同。

实验结果

1. Workflow evolution：CPE 减少 structural policy drift

Workflow 实验中，vanilla EvoAgentX 会为了复杂任务反复加入 validation operator 和结构 detour。局部看这些 repair 合理，但长期积累后 workflow 变得更 bloated，routine simple tasks 反而更容易被过度防御策略干扰。 CPE 用 seed workflow 中抽取的行为 anchor 抑制这种无约束膨胀。

Workflow comparison 图显示 vanilla evolution 产生更复杂的最终 workflow；CPE 保持更紧凑的执行结构。

Workflow complexity 曲线显示，在 complex Airline task 子集上，vanilla EvoAgentX 的 workflow 复杂度持续增长，CPE 明显放缓这种结构膨胀。

Retention-adaptation 散点图展示最终 evolved workflow 在 retained simple-task performance 与 complex-task performance 之间的权衡。

Backbone	Simple Avg. Vanilla	Simple Avg. CPE	Complex Avg. Vanilla	Complex Avg. CPE
GPT-5.1	41.8	52.8	23.9	33.4
GPT-5 nano	46.8	55.7	22.8	26.7

2. Skill/tool evolution：bounded repository 会把旧技能挤出去

Skill 实验用 bounded-capacity skill bank。vanilla self-evolution 直接把新技能加入 repository，容量满后按 least-frequently-used 删除。随着任务分布从 Geometry 转向 Number Theory，新技能逐渐占据 retrieval 和容量，旧的 general-purpose skills 被边缘化。CPE 通过 skill merge、candidate check 和 high-utility skill protection 缓解这个过程。

Skill evolution overview 展示从 Geometry 到 Number Theory 的分布转移中，vanilla repository 会逐步覆盖旧技能；CPE 通过 consolidation 保留旧 procedural knowledge。

Retained skill usage 图显示，vanilla self-evolution 会压低早期技能使用；CPE 保留更广的 prior-skill utilization。

Algebra evaluation curve 显示 GPT-4o mini 下，随着演化轨迹转向后续域，vanilla 在早期 Algebra capability 上持续下降；CPE 更稳定。

Domain	GPT-5 nano Vanilla	GPT-5 nano CPE	GPT-4o mini Vanilla	GPT-4o mini CPE
Algebra	84.3	85.9	82.6	84.4
Geometry	58.9	59.3	50.8	51.1
Number Theory	85.4	87.8	73.5	76.1

3. Model evolution：CPE 把 continual fine-tuning 的忘记问题接到 agent 语境

Model 实验是最接近传统 continual learning 的部分：用 STaR self-training 在 MedMCQA 上顺序适应不同医学域。 vanilla later-stage updates 会覆盖之前支撑早期医学域的参数区域。CPE 使用 Elastic Weight Consolidation style regularizer，在 LoRA 参数上估计 Fisher importance，限制对 prior-domain 重要参数的 destructive movement。

Qwen3-0.6B Anatomy curve 显示，vanilla sequential self-training 在早期 Anatomy evaluation 上出现下降；CPE 更稳定。

Domain	Qwen3-0.6B Vanilla	Qwen3-0.6B CPE	Llama3.2-3B Vanilla	Llama3.2-3B CPE
Anatomy	29.4	30.5	68.9	70.3
Biochemistry	37.2	38.4	79.4	79.5
Dental	32.2	33.0	53.0	53.5

4. Memory evolution：底层模型不变，memory repository 也会忘

Memory 实验尤其值得放进 Drift Monitor 系列：即使 base model 固定，只更新外部 memory bank，旧任务能力仍会因为 eviction、retrieval competition 和 memory revision 受损。论文报告 CPE 的 evidence-gated preservation 把 average retention gap 从 2.3% 降到 0.7%。

Memory retention 图比较 old-task memory state、vanilla new-task memory evolution 和 CPE new-task memory evolution；CPE 稳定历史可靠 memories，降低旧任务保持损失。

我的评论

这篇论文很适合放在 self-evolving agents 的 drift-monitor 分类下，因为它把“drift”从安全或目标层面扩展到了能力保持层面。一个 agent 可能没有被攻击，也没有显式目标偏移，但在持续改 workflow、skill、model、memory 的过程中仍然会 regression。

论文最强的贡献是统一视角：四个通道看起来完全不同，但都是 mutable repository 的 sequential rewrite。这让我们可以把 release gate 设计成统一问题：每次 self-evolution 不只跑 new-task eval，还要跑 retained capability probes，并记录 repository diff 是否触碰旧能力敏感结构。

需要保留的边界也很清楚。CPE 是一个 stabilization principle，不是一个通用算法。四个通道里的 CPE 实例化仍然比较 domain-specific： workflow 用 anchor signatures，skill 用 consolidation，model 用 Fisher regularization，memory 用 evidence-gated protection。真正工程化时，难点会落在“哪些旧能力值得保护”和“保护到什么程度不妨碍新能力”。

One More Thing

这篇论文给 Drift Monitor 的一个直接启发是：monitor 不应该只监控 agent 有没有偏离目标，还要监控每轮 evolution 之后的 capability retention envelope。也就是把旧能力 probes、repository diff、retrieval distribution、 workflow complexity 和 memory eviction 统一记录成 release artifact。

可以落成一个简单 gate： 如果新任务指标上涨，但旧任务 probe 下降、workflow complexity 激增、旧 skill retrieval 消失、memory eviction 命中高证据条目，那这次 self-evolution 应该进入人工复核，而不是直接合并。

Reference / Evidence

arXiv abstract page
https://arxiv.org/abs/2605.09315

arXiv PDF
https://arxiv.org/pdf/2605.09315