先给结论
这篇论文最重要的地方不是提出又一个 self-evolving agent,而是把一个经常被默认忽略的问题直接摆上台面: agent 在持续适应新任务时,真的会保留旧能力吗? 作者的答案是:不一定。无约束的自进化会在 workflow、skill/tool、model、memory 四个通道上产生 capability erosion。
版本说明:本页基于 arXiv v1 PDF 与公开 source package 制作;检索日期为 2026-06-03。 页面只列出公开在线证据,不暴露本地 source 文件名、私有路径或运行日志。
研究动机
self-evolving agents 的愿景通常是单调增长:系统会优化 workflow、积累 skill、继续训练模型、更新 memory, 因此能力会随时间变强。论文挑战的就是这个隐含假设。一个 agent 从旧任务分布 \(D_1,\ldots,D_{t-1}\) 走向新任务分布 \(D_t\) 时,新的更新可能改写之前支撑旧任务成功的结构。
这不是传统意义上只发生在神经网络参数里的 catastrophic forgetting。对于 agent,能力状态 \(R_t\) 可以是 executable workflow、bounded skill repository、trainable model parameters, 也可以是 persistent memory store。只要这个 repository 会被反复改写,就存在 destructive interference。
作者把这种现象称为 capability erosion under self-evolution。它至少有三种表现: old-task performance 下降,workflow 变得更长更绕,或者 repository 过度贴合新分布而损失泛化。 这让 self-evolving agent 的评估从“新任务有没有变好”变成“新任务变好的同时,旧能力有没有被破坏”。
数学表示及建模
论文先把所有 self-evolution 通道抽象成统一的 sequential adaptation。令 agent 在第 \(t\) 阶段遇到任务分布 \(D_t\),能力状态为 \(R_t \in \mathcal{R}\)。单个样本 \(x\sim D_t\) 上的损失是 \(\ell(R;x)\),阶段期望损失为:
naive self-evolution 只优化当前阶段目标:
旧分布集合记为 \(D_{<t}=\{D_1,\ldots,D_{t-1}\}\)。论文定义 retained old-distribution risk:
如果适应当前分布后旧分布风险上升,就发生 capability erosion:
论文进一步给出一个局部曲率解释:若 \(R_{t-1}\) 对旧任务是局部最优, \(H_{<t}=\nabla^2\mathcal{L}_{<t}(R_{t-1})\succeq0\), 新任务梯度 \(g_t=\nabla\mathcal{L}_t(R_{t-1})\),那么 naive update \(R_t^{\mathrm{naive}}=R_{t-1}-\eta g_t\) 会带来:
算法流程 / 方法
Capability-Preserving Evolution (CPE) 的核心是把“保持旧能力”显式写进 self-evolution objective。 在第 \(t\) 阶段,不再只优化 \(\mathcal{L}_t\),而是优化:
这里 \(\Omega_t\) 衡量新能力状态和旧能力支撑结构之间的偏离,\(\lambda\) 控制 stability-plasticity tradeoff。 CPE 不是停止演化,而是在能提升新任务的候选更新中,偏向那些对旧能力结构干扰更小的更新。
| 演化通道 | 可变 repository | CPE 实例化 | 主要风险 |
|---|---|---|---|
| Workflow | executable workflow / prompt program | anchor behavioral signatures | workflow 变长、结构 detour、prompt drift |
| Skill / Tool | bounded skill bank | skill consolidation + high-utility skill protection | 新技能挤掉旧技能,retrieval 变窄 |
| Model | LoRA / parameter state | Fisher / EWC-style retention regularization | 参数层面的 catastrophic forgetting |
| Memory | persistent external memory store | evidence-gated memory preservation | 旧 memory 被 eviction、suppression 或 context competition |
这也是这篇论文对 self-evolving agents 分类的价值:它不把 workflow、skill、model、memory 看成四个无关实验, 而是把它们统一成“反复改写一个 mutable capability repository”的同一类问题。
实验设计
论文在四个演化维度上分别实例化 CPE,并保持 vanilla 与 CPE 的底层 pipeline、优化预算和演化顺序一致。 这样比较的不是“换了一个系统是否更强”,而是同一个 self-evolution loop 加上 preservation constraint 后, 是否能减少旧能力 erosion。
| 维度 | 框架 / 数据 | Backbone | 评估目标 |
|---|---|---|---|
| Workflow | EvoAgentX on \(\tau^2\)-Bench | GPT-5.1, GPT-5 nano | 从 simple seed 演化到 complex subset 后,同时评估 simple retention 与 complex adaptation |
| Skill / Tool | MemSkill-style on MATH | GPT-4o mini, GPT-5 nano | Algebra \(\rightarrow\) Geometry \(\rightarrow\) Number Theory 顺序演化后的旧域保持 |
| Model | STaR self-training on MedMCQA | Qwen3-0.6B, Llama3.2-3B | Anatomy \(\rightarrow\) Biochemistry \(\rightarrow\) Dental 顺序 fine-tuning 后的 retained accuracy |
| Memory | Dynamic-Cheatsheet-style external strategy repository | GPT-4o mini, GPT-5 nano | 新任务 memory update 后 old-task probe 的 retention gap |
实验结果
1. Workflow evolution:CPE 减少 structural policy drift
Workflow 实验中,vanilla EvoAgentX 会为了复杂任务反复加入 validation operator 和结构 detour。 局部看这些 repair 合理,但长期积累后 workflow 变得更 bloated,routine simple tasks 反而更容易被过度防御策略干扰。 CPE 用 seed workflow 中抽取的行为 anchor 抑制这种无约束膨胀。
| Backbone | Simple Avg. Vanilla | Simple Avg. CPE | Complex Avg. Vanilla | Complex Avg. CPE |
|---|---|---|---|---|
| GPT-5.1 | 41.8 | 52.8 | 23.9 | 33.4 |
| GPT-5 nano | 46.8 | 55.7 | 22.8 | 26.7 |
2. Skill/tool evolution:bounded repository 会把旧技能挤出去
Skill 实验用 bounded-capacity skill bank。vanilla self-evolution 直接把新技能加入 repository, 容量满后按 least-frequently-used 删除。随着任务分布从 Geometry 转向 Number Theory,新技能逐渐占据 retrieval 和容量, 旧的 general-purpose skills 被边缘化。CPE 通过 skill merge、candidate check 和 high-utility skill protection 缓解这个过程。
| Domain | GPT-5 nano Vanilla | GPT-5 nano CPE | GPT-4o mini Vanilla | GPT-4o mini CPE |
|---|---|---|---|---|
| Algebra | 84.3 | 85.9 | 82.6 | 84.4 |
| Geometry | 58.9 | 59.3 | 50.8 | 51.1 |
| Number Theory | 85.4 | 87.8 | 73.5 | 76.1 |
3. Model evolution:CPE 把 continual fine-tuning 的忘记问题接到 agent 语境
Model 实验是最接近传统 continual learning 的部分:用 STaR self-training 在 MedMCQA 上顺序适应不同医学域。 vanilla later-stage updates 会覆盖之前支撑早期医学域的参数区域。CPE 使用 Elastic Weight Consolidation style regularizer, 在 LoRA 参数上估计 Fisher importance,限制对 prior-domain 重要参数的 destructive movement。
| Domain | Qwen3-0.6B Vanilla | Qwen3-0.6B CPE | Llama3.2-3B Vanilla | Llama3.2-3B CPE |
|---|---|---|---|---|
| Anatomy | 29.4 | 30.5 | 68.9 | 70.3 |
| Biochemistry | 37.2 | 38.4 | 79.4 | 79.5 |
| Dental | 32.2 | 33.0 | 53.0 | 53.5 |
4. Memory evolution:底层模型不变,memory repository 也会忘
Memory 实验尤其值得放进 Drift Monitor 系列:即使 base model 固定,只更新外部 memory bank, 旧任务能力仍会因为 eviction、retrieval competition 和 memory revision 受损。 论文报告 CPE 的 evidence-gated preservation 把 average retention gap 从 2.3% 降到 0.7%。
我的评论
这篇论文很适合放在 self-evolving agents 的 drift-monitor 分类下,因为它把“drift”从安全或目标层面扩展到了能力保持层面。 一个 agent 可能没有被攻击,也没有显式目标偏移,但在持续改 workflow、skill、model、memory 的过程中仍然会 regression。
论文最强的贡献是统一视角:四个通道看起来完全不同,但都是 mutable repository 的 sequential rewrite。 这让我们可以把 release gate 设计成统一问题:每次 self-evolution 不只跑 new-task eval,还要跑 retained capability probes, 并记录 repository diff 是否触碰旧能力敏感结构。
需要保留的边界也很清楚。CPE 是一个 stabilization principle,不是一个通用算法。四个通道里的 CPE 实例化仍然比较 domain-specific: workflow 用 anchor signatures,skill 用 consolidation,model 用 Fisher regularization,memory 用 evidence-gated protection。 真正工程化时,难点会落在“哪些旧能力值得保护”和“保护到什么程度不妨碍新能力”。
One More Thing
这篇论文给 Drift Monitor 的一个直接启发是:monitor 不应该只监控 agent 有没有偏离目标,还要监控每轮 evolution 之后的 capability retention envelope。也就是把旧能力 probes、repository diff、retrieval distribution、 workflow complexity 和 memory eviction 统一记录成 release artifact。
Reference / Evidence
https://arxiv.org/abs/2605.09315
https://arxiv.org/pdf/2605.09315