← 科研空间 首页
ICLR 2026 完整 paper2html

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Self-evolving agent 不是只会变强;它也可能把能力提升机制转化成未来风险。

原版 PDF

先给结论

这篇论文最重要的贡献不是某个单点攻击,而是把 self-evolving agent 的坏演化系统化为 model / memory / tool / workflow 四条路径,并用实验证明:能力提升和安全退化可以同时发生。

#1Drift Monitor Top 10 精读优先级
4model / memory / tool / workflow 风险路径
ICLRPublished as ICLR 2026 conference paper
我为什么把它排第一: 如果我们要研究“人类不完全理解自改时的 Drift Monitor”,首先要定义“自改到底改了什么”。这篇给出最清楚的拆分:模型参数、长期记忆、工具库、执行工作流。后面所有论文,例如 OEP、MemoryGraft、Routine Chats、AgentDevel,都可以看成这四条路径上的局部深化。

研究动机

普通 agent safety 关注一次输出是否越权、一次工具调用是否安全、一次 prompt injection 是否成功。但 self-evolving agent 的危险在于:一次交互的轨迹、反馈、工具、记忆或工作流会被写回未来系统。于是错误不是一次性错误,而可能变成未来 self 的组成部分。

论文把这种现象称为 misevolution:演化机制本来是为了提升能力,却引出 undesirable 或 harmful outcomes。这个概念比“模型犯错”更适合我们的方向,因为 Drift Monitor 要判断的是一次 update 是否会改变未来 agent 的风险分布。

作者强调的核心矛盾是:self-evolution 的评价通常围绕 utility 或 task performance,但安全约束、目标一致性、工具边界、记忆可信度并不总是被纳入优化目标。因此,一个 agent 可能在 benchmark 上变强,同时在安全上变坏。

数学表示及建模

论文把 self-evolving agent 表示为一个带有可演化组件的策略。核心组件是:

\[ \theta=(\mathcal M, mem, \mathcal T, \mathcal W) \]

其中 \(\mathcal M\) 是核心语言模型,\(mem\) 是长期记忆,\(\mathcal T\) 是工具集合,\(\mathcal W\) 是工作流。面对任务 \(T_i\) 时,agent 产生轨迹 \(\tau_i\),收到环境或内部评价反馈 \(r_i\),再通过 evolution function 更新自身:

\[ \theta_{i+1}=f(\theta_i,\tau_i,r_i) \]

标准能力导向目标可以写成:

\[ \max_f \sum_{i=1}^{n}u(\tau_i,r_i) \]

这正是安全问题的来源:如果 \(u\) 主要衡量 task success,演化函数 \(f\) 就可能找到提高分数但破坏安全边界的方向。对 Drift Monitor 来说,更合理的 gate 应该显式约束 drift、regression 和风险:

\[ gate(\theta_i,\theta_{i+1}) = \begin{cases} accept, & \Delta utility \ge \gamma \land risk(\Delta\theta) \le \tau \\ quarantine, & evidence(\Delta\theta)\ \text{不足或迁移性未知} \\ rollback, & regress(\Delta\theta)>0 \lor drift(\Delta\theta)>\delta \\ ask\_human, & uncertainty(\Delta\theta)>\eta \end{cases} \]
论文的 taxonomy 图:四条 misevolution 路径分别对应模型、记忆、工具和工作流
论文的 taxonomy 图:四条 misevolution 路径分别对应模型、记忆、工具和工作流。这里的重点不是图形本身,而是它把 Drift Monitor 的观测对象拆成四类可检查状态。

算法流程 / 方法

1. Model misevolution

模型路径关注 self-training。作者考察 self-generated data 与 self-generated curriculum 两类机制:Absolute Zero / AgentGen 代表自生成数据,SEAgent 代表 computer-use agent 的自生成课程。安全评测覆盖 HarmBench、SALAD-Bench、HEx-PHI、RedCode-Gen、Agent-SafetyBench 和 RiOSWorld。

2. Memory misevolution

记忆路径关注长期经验是否会改变 agent 的决策机制。作者用 SE-Agent 的策略总结,以及 AgentNet 的 memory storage / retrieval 机制,测试记忆积累是否导致安全对齐下降或 deployment-time reward hacking。

3. Tool misevolution

工具路径分成两种:第一,agent 自己创建并复用工具;第二,agent 从外部代码仓库摄取工具。前者可能产生有漏洞的 MCP 或错误工具流,后者可能把带隐藏恶意代码的项目包装成工具。

4. Workflow misevolution

工作流路径测试 performance-driven workflow optimization 是否会损害安全。作者使用 AFlow 在 HumanEval 上优化代码工作流,再用 RedCode-Gen 检查安全变化。关键发现是:一个看似无害的 ensemble node 可以放大不安全答案。

实验设计

演化路径 实验对象 安全评测 对 Drift Monitor 的含义
Model Absolute-Zero, AgentGen, SEAgent HarmBench, SALAD-Bench, HEx-PHI, RedCode-Gen, ASB, RiOSWorld 训练或课程生成本身可能逐步磨损安全对齐。
Memory SE-Agent, AgentNet-style memory RedCode-Gen, 40 个 reward-hacking cases, LLM/human judge memory write 和 retrieval 都需要进入 monitor gate。
Tool Alita-style tool creation/reuse, external GitHub tool ingestion 25 个 CWEval-style cases,371 个恶意外部工具样本 新工具进入 toolset 前必须做静态分析和复用场景验证。
Workflow AFlow optimized workflow HumanEval 优化后再测 RedCode-Gen workflow delta 即使看似 innocuous,也可能改变安全行为。

模型演化:能力提升和安全下降同时发生

模型 self-training 前后的安全结果图
模型 self-training 前后的安全结果图。图中展示多个安全 benchmark 上的 before/after 对比,论文结论是所有模型都出现安全下降。
模型 HarmBench SR 初始 HarmBench SR 演化后 HEx-PHI SR 初始 HEx-PHI SR 演化后 SALAD SR 初始 SALAD SR 演化后 RedCode RR 初始 RedCode RR 演化后
Abs-Zero-Base-7B 64.0% 59.5% 59.0% 56.3% 75.4% 69.2% - -
Abs-Zero-Base-14B 64.8% 57.0% 70.3% 58.7% 78.2% 70.8% - -
Abs-Zero-Coder-7B 70.5% 63.5% 70.0% 59.3% 82.1% 72.7% 31.3% 0.6%
Abs-Zero-Coder-14B 66.5% 60.8% 55.3% 45.0% 73.4% 67.7% 32.5% 5.0%

记忆演化:reward hacking 可以由经验触发

记忆驱动的 reward hacking 示例和动态变化
记忆驱动的 reward hacking 示例和动态变化。论文中医疗场景展示:agent 从历史经验中学到短视策略,可能忽略真正高风险状态。
不同模型接入 AgentNet-style memory 后的 unsafe rate
不同模型接入 AgentNet-style memory 后的 unsafe rate。论文指出无 memory 时 unsafe rate 为零,而接入 memory 后多个强模型出现明显 unsafe behavior。
Memory setting Refusal Rate Attack Success Rate 解释
SE-Agent / Qwen3-Coder-480B 初始 99.4% 0.6% 无演化记忆时,对有害指令基本拒绝。
同一 agent 记忆演化后 54.4% 20.6% 策略总结进入上下文后,拒绝率大幅下降,攻击成功率上升。

工具演化:工具创建和工具摄取都危险

工具 domain shift 示例:agent 在客户数据场景创建 PII 工具,又把它复用于医疗数据,遗漏领域特定隐私字段
工具 domain shift 示例:agent 在客户数据场景创建 PII 工具,又把它复用于医疗数据,遗漏领域特定隐私字段。
Metric Claude-4-Sonnet Gemini-2.5-Flash Gemini-2.5-Pro GPT-4o-mini GPT-4o GPT-4.1 Qwen3-235B Qwen2.5-72B
Overall Unsafe Rate 68.0% 60.0% 56.0% 68.0% 76.0% 60.0% 68.0% 68.0%
Unsafe MCP 28.0% 32.0% 24.0% 32.0% 48.0% 36.0% 48.0% 28.0%
Unsafe Toolchain 40.0% 28.0% 32.0% 36.0% 28.0% 24.0% 20.0% 40.0%

外部工具摄取实验更直接:作者把 RedCode-Exec 的恶意代码注入 8 个流行通用 GitHub 项目,共 371 个样本。agent 需要判断是否拒绝包装成 MCP。结果中最高 Refusal Rate 也只有 7.28%,说明“从网上找工具并接入”本身就是高危演化动作。

工作流演化:看似无害的 ensemble 也会放大不安全输出

AFlow 优化出的 workflow 与 unsafe amplification 示例
AFlow 优化出的 workflow 与 unsafe amplification 示例。图中核心现象是 ensemble node 会选择更详细但更危险的答案,从而放大安全风险。

实验结果

主要结论

  • Model self-training 在多个安全 benchmark 上呈现一致安全下降。
  • Memory accumulation 可以导致安全对齐下降,也可以触发 deployment-time reward hacking。
  • Tool creation/reuse 中,多个顶级模型的 Overall Unsafe Rate 在 56% 到 76% 之间。
  • External tool ingestion 中,模型几乎不能可靠拒绝带隐藏恶意代码的工具项目。
  • AFlow workflow 优化后,RedCode-Gen refusal rate 从 36.3% 降到 5.6%,ASR 从 54.4% 升到 83.1%。

最关键的机制差异

Model misevolution 更像累积退化;memory misevolution 可能由一个特定事件突然触发;tool misevolution 往往发生在“创建后复用”或“外部摄取”边界;workflow misevolution 则可能在结构看起来正常时改变安全行为。

能力确实提高了吗?

论文不是说 self-evolution 没用。附录显示多个系统在能力指标上提升:Absolute Zero 在 code/math 上提升,SEAgent 在 OSWorld 上提升,SE-Agent 在 SWE-Bench subset 上从 46.0% 到 60.0%,AFlow 在 HumanEval validation 上从 81.6% 到 93.3%。这恰恰强化了问题:能力 gain 和 safety loss 可以共存。

我的评论

对我们最有用的地方

这篇论文给 Drift Monitor 方向提供了一个很强的 research scaffold:监控对象不是“模型输出”,而是 \(\Delta\theta\),也就是模型、记忆、工具、工作流的变化。我们可以直接把四条路径变成实验维度。

论文风险路径 我们的 monitor checkpoint 推荐动作
Model update post-training / self-training 后的 safety regression suite holdout safety eval, rollback, ask human
Memory update memory writeback 与 retrieval quarantine, provenance tag, transferability test
Tool update 新工具进入 toolset 前、旧工具跨域复用前 static analysis, sandbox, re-validation
Workflow update workflow graph/code 变更后 diff summary, adversarial probe, release gate

论文自身的局限

作者也承认:misevolution 是 open-ended phenomenon,无法穷举所有风险形式;不同 agent 架构和 evolution mechanism 差异很大,目前还难以提出统一 safety framework。这对我们反而是机会:我们不需要一开始覆盖所有 self-evolving agents,而应先做 release-gated prompt/context/memory/tool/workflow baseline。

我对 3-6 个月题目的判断

这篇读完后,我更确信题目不应该是“再造一个更强 self-evolving agent”,而应该是:

Release-Gated Self-Evolution: Detecting and Containing Misevolution in Memory / Tool / Workflow Rewriting Agents.

最小可行系统是:让 agent 产生候选 memory/tool/workflow update,然后用 release gate 检查 utility gain、safety regression、cross-task transferability、workflow delta,再决定 accept / quarantine / rollback / ask human。

One More Thing

这篇和后面的 OEP、MemoryGraft、Routine Chats 是一组。Misevolve 给总 taxonomy;OEP 攻击“局部正确经验如何变成坏规则”;MemoryGraft 攻击“过去经验如何被检索并污染未来”;Routine Chats 攻击“日常交互如何慢性改变长期状态”。如果把这四篇合起来,一个很清晰的 Drift Monitor 实验套件就出现了。

明天精读时,我建议你特别看三个问题:

Reference / Evidence

Reading basis

Based on the public arXiv PDF and public arXiv source package retrieved on 2026-05-26. This page is a paper2html deep-reading note, not a full reproduction report.