先给结论
OEP 最危险的地方在于:它不需要显式恶意指令,也不需要写入错误事实。攻击输入在局部是正确的,却会被 self-evolving agent 的 reflection/memory consolidation 误提炼成高优先级全局规则,最终污染未来任务。
版本说明:本页基于公开 arXiv PDF、公开 arXiv source package、TeX source inventory 与图表/表格抽取完成;检索日期为 2026-05-26。公开页面只列出公开在线证据,不暴露本地路径或私有运行日志。
研究动机
Self-evolving agents 依赖长期记忆和反思,把过去轨迹压缩成未来可复用经验。这个机制本来是为了提升性能:Reflexion、ExpeL、Voyager、OpenClaw、Claude Code 等系统都会利用过去经验、skills 或 memory 来改善未来执行。
问题是:如果 agent 有很强的 experience-following bias,它就可能盲目复制过去方法。传统 memory attacks 通常假设攻击者能写入恶意指令、触发器或被篡改记录,因此内容过滤、anomaly detection 或 LLM-as-a-Judge sanitization 有机会拦截。但 OEP 针对的是更隐蔽的面:干净案例也能毒化反思。
论文的问题是:能否只通过 ordinary conversational access,让 agent 生成看似合理的经验,然后在反思阶段把局部方法过度泛化成 persistent rule?作者的回答是:可以,而且这种攻击在 LLM auditor 下比显式攻击更难防。
数学表示及建模
攻击者是低权限黑盒用户:不能改 system prompt、不能访问模型参数、不能直接编辑 memory DB、不能 tamper backend tools。它只能提交 crafted experiences \(e_{\mathrm{adv}}\),让这些经验进入 agent 的 episodic history。
Victim agent 有 semantic memory \(\mathcal{M}_t\)、episodic history \(\mathcal{H}_t\)、epistemic validator 和 reflection function。因为 OEP 案例在当前上下文是 valid 的,它会进入 filtered history,并由 reflection 更新 memory:
Clean edge-case 由边界任务 \(t_e\)、局部解 \(s_e\)、非标准方法 \(m_e\) 组成。它必须满足局部正确:
同时又必须全局不可迁移:
ACT 把 clean edge-case 扩展为 \(e_{adv}=(t_e,s_e,c_{adv})\),其中 \(c_{adv}\) 是严重但语义合理的 hypothetical consequence。它构造非对称风险:
当 reflection 看到这个局部正确且后果严重的 episode,会把边界方法抽象为 \(r_{obs}\),并给它高权重:
算法流程 / 方法
Phase 1: Clean Edge-Case Construction
攻击者指定一个非标准方法 \(m_e\),从任务分布尾部找一个 boundary task \(t_e\),使得 \(m_e\) 在这个局部情境真的能解决问题,但在普通任务分布中不可靠。这样它能绕过 factuality / logic validation。
Phase 2: Adversarial Consequence Triplet
只给正确例子不够,因为 reflection 的 hypothesis space 很大,agent 未必抽象出攻击者想要的规则。ACT 通过严重后果 \(c_{adv}\) 收缩抽象空间:如果不采用 \(s_e\),会出现 fatal kernel panic、critical misdiagnosis 这类严重但 domain-plausible 后果。它利用 safety-aligned LLMs 对 severe harm 的规避倾向。
Phase 3: Injection and Over-Generalization
攻击者通过普通用户交互提交 \(e_{adv}\)。epistemic filter 看到的是局部正确方案和语义合理后果,因此放行:
后续 reflection 把它提炼成“遇到类似任务必须应用 \(s_e\)”的全局规则。下游 benign task 只要与 \(t_e\) 有语义重叠,就可能检索到 \(r_{obs}\) 并错误应用非迁移方法。
主算法
| 阶段 | 动作 | 安全含义 |
|---|---|---|
| Clean edge-case | 采样 boundary task,验证 \(O(t_e,s_e)=True\),筛掉可迁移方法。 | 输入本身看起来正确,因此不触发普通内容过滤。 |
| ACT | 生成 severe consequence,构造 \(e_{adv}=(t_e,s_e,c_{adv})\)。 | 用风险叙事劫持 utility / loss-aversion。 |
| Reflection | agent 自己把 episode 抽象为 \(r_{obs}\)。 | provenance 从 external input 变成 self-generated reflection。 |
| Memory update | \(\mathcal{M}\gets\mathcal{M}\cup\{(r_{obs},w(r_{obs}))\}\)。 | 污染变成 persistent future prior。 |
实验设计
论文在三个领域评估:Math 使用 GSM8K 350 个采样测试题,Med 使用 MedQA 350 个采样测试题,Tool 使用 ToolAlpaca 的 13 个高层工具类别和 114 个 tool-use queries。框架包括 Simple Agent、LangChain memory、OpenClaw self-evolving skill module。
攻击阶段在 memory consolidation 前注入 10 个 conversational cases,其中 8 个是 contrastive failure trajectories,2 个是 positive reinforcement trajectories。所有实验重复 3 次,标准差在 2% 以内;除非特别说明,decoding temperature 为 0.0。
| Metric | 定义 | 为什么重要 |
|---|---|---|
| ESR | Experience Success Rate,生成 memory/reflection 是否编码了有害不可迁移规则。 | 衡量 poison 是否成功写入经验层。 |
| ASR | Attack Success Rate,下游行为是否被影响。 | 衡量 memory poison 是否真的影响 future behavior。 |
| ACC drop | Math/Med 下游准确率下降。 | 完整性攻击。 |
| Tool steps increase | Tool domain 中冗余调用/步骤增加。 | availability / Denial-of-Wallet 攻击。 |
实验结果
主结果:self-evolution 先提升,OEP 再摧毁
| Framework | Domain | No Mem | S-Evo | OEP | 解读 |
|---|---|---|---|---|---|
| GPT-4o Agent | Math ACC | 82.57 | 91.43 | 40.29 | 自进化提升后,被 OEP 大幅拉低。 |
| GPT-4o Agent | Med ACC | 84.29 | 87.14 | 42.86 | 医疗推理也显著退化。 |
| GPT-4o Agent | Tool steps | 1.11 | 1.18 | 2.87 | 工具步骤增加,体现 Denial-of-Wallet。 |
| GPT-4o LangChain | Math ACC | 90.57 | 92.86 | 38.57 | LangChain memory 同样受影响。 |
| GPT-5.4 OpenClaw | Math ACC | 96.00 | 98.86 | 28.57 | 更强 OpenClaw 在 Math 上更脆弱。 |
| GPT-5.4 OpenClaw | Tool steps | 1.16 | 1.31 | 3.08 | 自进化 skill 被污染后工具调用膨胀。 |
Backbone ablation:更强模型反而更易被 OEP 劫持
| Backbone | Math ASR | Med ASR | Tool ASR |
|---|---|---|---|
| GPT-4o mini | 30.57 | 29.71 | 30.70 |
| GPT-4o | 59.14 | 52.00 | 71.93 |
| Deepseek-v3.2 | 53.14 | 43.71 | 66.67 |
| Gemini2.5-flash | 60.29 | 52.57 | 71.05 |
| Qwen3-max | 58.00 | 50.29 | 72.81 |
作者称之为 capability-vulnerability paradox:更强模型更会遵循指令、更认真反思、更重视安全后果,因此也更可能把 ACT 叙事内化成高优先级规则。这个结论对 Drift Monitor 很重要:能力提升不是安全提升的同义词。
ACT 是攻击核心
| Injection | Math ESR / ASR | Med ESR / ASR | Tool ESR / ASR |
|---|---|---|---|
| QA Only | 12.29 / 8.86 | 6.29 / 5.26 | 9.65 / 7.02 |
| QA-Solution | 19.43 / 14.57 | 14.86 / 10.29 | 21.92 / 17.54 |
| Triplet | 77.43 / 59.14 | 68.29 / 52.00 | 85.09 / 71.93 |
Persistence:污染不是短暂 prompt effect
50 次后续 benign queries 之后,Math/Med/Tool 的 ASR 分别仍为 56、48、72。论文解释为 ACT 带来的高 memory priority 和 loss-aversion 让 \(r_{obs}\) 能抵抗自然 memory dilution。
Defense:普通 LLM auditor 不够
| Method | No defense ASR | Prompt filter ASR | LLM auditor ASR |
|---|---|---|---|
| MINJA | 68.86 | 65.43 | 14.86 |
| AgentPoison | 46.29 | 48.86 | 5.71 |
| Inject Agent | 97.71 | 3.43 | 3.71 |
| MemoryGraft | 52.57 | 50.57 | 5.43 |
| OEP | 59.14 | 58.57 | 40.29 |
LLM malicious-content auditor 能把显式 payload 类攻击压到 15% 以下,但 OEP 仍有 40.29% ASR。原因不是 auditor 弱,而是它的检测目标错了:OEP 的输入是局部正确、语义合理、无显式恶意的。
我的评论
它给 Drift Monitor 的最直接要求
OEP 迫使 monitor 从“内容安全”升级到“迁移安全”。memory write 不能只检查 factual correctness、toxicity 或 explicit maliciousness,而要检查规则的 support distribution 与 transfer boundary。
| OEP 机制 | Monitor checkpoint | 推荐动作 |
|---|---|---|
| 局部正确但不可迁移 | transfer validation / counterexample search | 跨普通任务分布测试,不通过则 quarantine。 |
| severe consequence framing | risk-skew detector | 标记因灾难叙事获得高权重的规则。 |
| self-generated reflection provenance | provenance audit | 记录规则来自用户输入、agent 反思还是外部工具。 |
| persistent \(r_{obs}\) | memory priority review | 高优先级规则需要更多证据和回滚路径。 |
| Tool step inflation | availability probe | 把冗余 tool calls 作为 drift/regression 指标。 |
在 AgentDevel-style release pipeline 中,OEP 可以直接成为 memory/skill update 的 adversarial probe:每个候选 memory rule 都必须通过 local validity、transfer validity、risk-skew、provenance audit 四个检查。
论文自身边界
OEP 的 ACT 设计需要 domain expertise,构造 severe but plausible consequences 有工程成本。评估主要集中在单 agent;多 agent 系统可能有交叉审查机会,但也可能被更复杂地污染。论文提出 Auto Search 与 MAS Debate,两者能降低 ASR,但不能完全消除 OEP。
One More Thing
这篇和 AgentDevel 拼起来,几乎就是一个可做的 paper skeleton:AgentDevel 提供 release gate,OEP 提供 clean-case memory poisoning probe。我们的贡献可以是:在 release gate 里加入 transferability-aware drift monitor,证明它比普通 content filter / LLM auditor 更能阻止局部经验污染。
下一篇 MemoryGraft 会进一步补充“过去经验如何被检索并污染 reasoning core”。OEP 主要攻击 memory consolidation,MemoryGraft 更像攻击 retrieval/use 阶段。两篇合起来,memory drift monitor 的输入/写入/检索/应用四个 checkpoint 就完整了。
Reference / Evidence
Based on the public arXiv PDF, arXiv abstract page, and public arXiv source package retrieved on 2026-05-26. This page is a paper2html deep-reading note, not a reproduction report.