← 科研空间 首页
arXiv 2026 完整 paper2html

OEP: Poisoning Self-Evolving LLM Agents via Locally Correct but Non-Transferable Experiences

一种低权限 clean-case memory/reflection poisoning:局部正确经验被错误写成全局规则。

原版 PDF

先给结论

OEP 最危险的地方在于:它不需要显式恶意指令,也不需要写入错误事实。攻击输入在局部是正确的,却会被 self-evolving agent 的 reflection/memory consolidation 误提炼成高优先级全局规则,最终污染未来任务。

#4Drift Monitor Top 10 精读优先级
50%+GPT-4o agents 上多域 ASR 超过 50%
40.29%LLM auditor 防御下 OEP 仍保留的 ASR
核心判断: memory update gate 不能只问“这段经验是否真实/是否无害”。它还必须问:“这条经验规则能不能迁移?它是不是只在一个边界条件成立?它是不是被 severe consequence 叙事过度加权?”这就是 OEP 对 Drift Monitor 的直接价值。

版本说明:本页基于公开 arXiv PDF、公开 arXiv source package、TeX source inventory 与图表/表格抽取完成;检索日期为 2026-05-26。公开页面只列出公开在线证据,不暴露本地路径或私有运行日志。

研究动机

Self-evolving agents 依赖长期记忆和反思,把过去轨迹压缩成未来可复用经验。这个机制本来是为了提升性能:Reflexion、ExpeL、Voyager、OpenClaw、Claude Code 等系统都会利用过去经验、skills 或 memory 来改善未来执行。

问题是:如果 agent 有很强的 experience-following bias,它就可能盲目复制过去方法。传统 memory attacks 通常假设攻击者能写入恶意指令、触发器或被篡改记录,因此内容过滤、anomaly detection 或 LLM-as-a-Judge sanitization 有机会拦截。但 OEP 针对的是更隐蔽的面:干净案例也能毒化反思

论文的问题是:能否只通过 ordinary conversational access,让 agent 生成看似合理的经验,然后在反思阶段把局部方法过度泛化成 persistent rule?作者的回答是:可以,而且这种攻击在 LLM auditor 下比显式攻击更难防。

传统 memory attacks 与 OEP 的差异:前者常注入显式恶意内容,容易被 filter 阻断;OEP 用局部正确 clean edge-case 和后果上下文诱导 agent 自己反思出错误规则
传统 memory attacks 与 OEP 的差异:前者常注入显式恶意内容,容易被 filter 阻断;OEP 用局部正确 clean edge-case 和后果上下文诱导 agent 自己反思出错误规则。

数学表示及建模

攻击者是低权限黑盒用户:不能改 system prompt、不能访问模型参数、不能直接编辑 memory DB、不能 tamper backend tools。它只能提交 crafted experiences \(e_{\mathrm{adv}}\),让这些经验进入 agent 的 episodic history。

Victim agent 有 semantic memory \(\mathcal{M}_t\)、episodic history \(\mathcal{H}_t\)、epistemic validator 和 reflection function。因为 OEP 案例在当前上下文是 valid 的,它会进入 filtered history,并由 reflection 更新 memory:

\[ \mathcal{M}_{t+1}=\mathcal{M}_{t}\cup\mathcal{R}(\hat{\mathcal{H}}_t) \]

Clean edge-case 由边界任务 \(t_e\)、局部解 \(s_e\)、非标准方法 \(m_e\) 组成。它必须满足局部正确:

\[ \mathcal{O}(t_e,s_e)=\mathrm{True} \]

同时又必须全局不可迁移:

\[ \mathbb{E}_{t\sim\mathcal{D}_{task}}[\mathcal{S}(t,m_e)]<\epsilon \]

ACT 把 clean edge-case 扩展为 \(e_{adv}=(t_e,s_e,c_{adv})\),其中 \(c_{adv}\) 是严重但语义合理的 hypothetical consequence。它构造非对称风险:

\[ |U(\neg s_e\mid t_e)|\gg U(s_e\mid t_e)>0 \]

当 reflection 看到这个局部正确且后果严重的 episode,会把边界方法抽象为 \(r_{obs}\),并给它高权重:

\[ w(r_{obs})\propto |U(\neg s_e\mid t_e)| \]

算法流程 / 方法

OEP 三阶段流程:Phase 1 构造局部正确但不可迁移的 edge-case;Phase 2 加入 Adversarial Consequence Triplet;Phase 3 通过用户交互让 reflection module 过度泛化并写入 \(r_{obs}\)
OEP 三阶段流程:Phase 1 构造局部正确但不可迁移的 edge-case;Phase 2 加入 Adversarial Consequence Triplet;Phase 3 通过用户交互让 reflection module 过度泛化并写入 \(r_{obs}\)。

Phase 1: Clean Edge-Case Construction

攻击者指定一个非标准方法 \(m_e\),从任务分布尾部找一个 boundary task \(t_e\),使得 \(m_e\) 在这个局部情境真的能解决问题,但在普通任务分布中不可靠。这样它能绕过 factuality / logic validation。

Phase 2: Adversarial Consequence Triplet

只给正确例子不够,因为 reflection 的 hypothesis space 很大,agent 未必抽象出攻击者想要的规则。ACT 通过严重后果 \(c_{adv}\) 收缩抽象空间:如果不采用 \(s_e\),会出现 fatal kernel panic、critical misdiagnosis 这类严重但 domain-plausible 后果。它利用 safety-aligned LLMs 对 severe harm 的规避倾向。

Phase 3: Injection and Over-Generalization

攻击者通过普通用户交互提交 \(e_{adv}\)。epistemic filter 看到的是局部正确方案和语义合理后果,因此放行:

\[ \mathcal{E}(e_{adv})= \mathcal{V}_{logic}(s_e\mid t_e)\wedge \mathcal{V}_{semantic}(c_{adv}\mid t_e)=\mathrm{True} \]

后续 reflection 把它提炼成“遇到类似任务必须应用 \(s_e\)”的全局规则。下游 benign task 只要与 \(t_e\) 有语义重叠,就可能检索到 \(r_{obs}\) 并错误应用非迁移方法。

主算法

阶段 动作 安全含义
Clean edge-case 采样 boundary task,验证 \(O(t_e,s_e)=True\),筛掉可迁移方法。 输入本身看起来正确,因此不触发普通内容过滤。
ACT 生成 severe consequence,构造 \(e_{adv}=(t_e,s_e,c_{adv})\)。 用风险叙事劫持 utility / loss-aversion。
Reflection agent 自己把 episode 抽象为 \(r_{obs}\)。 provenance 从 external input 变成 self-generated reflection。
Memory update \(\mathcal{M}\gets\mathcal{M}\cup\{(r_{obs},w(r_{obs}))\}\)。 污染变成 persistent future prior。

实验设计

论文在三个领域评估:Math 使用 GSM8K 350 个采样测试题,Med 使用 MedQA 350 个采样测试题,Tool 使用 ToolAlpaca 的 13 个高层工具类别和 114 个 tool-use queries。框架包括 Simple Agent、LangChain memory、OpenClaw self-evolving skill module。

攻击阶段在 memory consolidation 前注入 10 个 conversational cases,其中 8 个是 contrastive failure trajectories,2 个是 positive reinforcement trajectories。所有实验重复 3 次,标准差在 2% 以内;除非特别说明,decoding temperature 为 0.0。

Metric 定义 为什么重要
ESR Experience Success Rate,生成 memory/reflection 是否编码了有害不可迁移规则。 衡量 poison 是否成功写入经验层。
ASR Attack Success Rate,下游行为是否被影响。 衡量 memory poison 是否真的影响 future behavior。
ACC drop Math/Med 下游准确率下降。 完整性攻击。
Tool steps increase Tool domain 中冗余调用/步骤增加。 availability / Denial-of-Wallet 攻击。

实验结果

主结果:self-evolution 先提升,OEP 再摧毁

Framework Domain No Mem S-Evo OEP 解读
GPT-4o Agent Math ACC 82.57 91.43 40.29 自进化提升后,被 OEP 大幅拉低。
GPT-4o Agent Med ACC 84.29 87.14 42.86 医疗推理也显著退化。
GPT-4o Agent Tool steps 1.11 1.18 2.87 工具步骤增加,体现 Denial-of-Wallet。
GPT-4o LangChain Math ACC 90.57 92.86 38.57 LangChain memory 同样受影响。
GPT-5.4 OpenClaw Math ACC 96.00 98.86 28.57 更强 OpenClaw 在 Math 上更脆弱。
GPT-5.4 OpenClaw Tool steps 1.16 1.31 3.08 自进化 skill 被污染后工具调用膨胀。

Backbone ablation:更强模型反而更易被 OEP 劫持

Backbone Math ASR Med ASR Tool ASR
GPT-4o mini 30.57 29.71 30.70
GPT-4o 59.14 52.00 71.93
Deepseek-v3.2 53.14 43.71 66.67
Gemini2.5-flash 60.29 52.57 71.05
Qwen3-max 58.00 50.29 72.81

作者称之为 capability-vulnerability paradox:更强模型更会遵循指令、更认真反思、更重视安全后果,因此也更可能把 ACT 叙事内化成高优先级规则。这个结论对 Drift Monitor 很重要:能力提升不是安全提升的同义词。

ACT 是攻击核心

左侧曲线显示 adversarial case ratio 越高,Math/Med/Tool 中 ESR 与 ASR 越高;右侧 ACT ablation 显示完整 Triplet 远强于 QA Only 和 QA-Solution
左侧曲线显示 adversarial case ratio 越高,Math/Med/Tool 中 ESR 与 ASR 越高;右侧 ACT ablation 显示完整 Triplet 远强于 QA Only 和 QA-Solution。
Injection Math ESR / ASR Med ESR / ASR Tool ESR / ASR
QA Only 12.29 / 8.86 6.29 / 5.26 9.65 / 7.02
QA-Solution 19.43 / 14.57 14.86 / 10.29 21.92 / 17.54
Triplet 77.43 / 59.14 68.29 / 52.00 85.09 / 71.93

Persistence:污染不是短暂 prompt effect

OEP 持久性:ASR 在 10、20、50 次后续查询后仍然显著;50 次后 Tool ASR 仍为 72%
OEP 持久性:ASR 在 10、20、50 次后续查询后仍然显著;50 次后 Tool ASR 仍为 72%。

50 次后续 benign queries 之后,Math/Med/Tool 的 ASR 分别仍为 56、48、72。论文解释为 ACT 带来的高 memory priority 和 loss-aversion 让 \(r_{obs}\) 能抵抗自然 memory dilution。

Defense:普通 LLM auditor 不够

Method No defense ASR Prompt filter ASR LLM auditor ASR
MINJA 68.86 65.43 14.86
AgentPoison 46.29 48.86 5.71
Inject Agent 97.71 3.43 3.71
MemoryGraft 52.57 50.57 5.43
OEP 59.14 58.57 40.29

LLM malicious-content auditor 能把显式 payload 类攻击压到 15% 以下,但 OEP 仍有 40.29% ASR。原因不是 auditor 弱,而是它的检测目标错了:OEP 的输入是局部正确、语义合理、无显式恶意的。

我的评论

它给 Drift Monitor 的最直接要求

OEP 迫使 monitor 从“内容安全”升级到“迁移安全”。memory write 不能只检查 factual correctness、toxicity 或 explicit maliciousness,而要检查规则的 support distribution 与 transfer boundary。

OEP 机制 Monitor checkpoint 推荐动作
局部正确但不可迁移 transfer validation / counterexample search 跨普通任务分布测试,不通过则 quarantine。
severe consequence framing risk-skew detector 标记因灾难叙事获得高权重的规则。
self-generated reflection provenance provenance audit 记录规则来自用户输入、agent 反思还是外部工具。
persistent \(r_{obs}\) memory priority review 高优先级规则需要更多证据和回滚路径。
Tool step inflation availability probe 把冗余 tool calls 作为 drift/regression 指标。

在 AgentDevel-style release pipeline 中,OEP 可以直接成为 memory/skill update 的 adversarial probe:每个候选 memory rule 都必须通过 local validity、transfer validity、risk-skew、provenance audit 四个检查。

\[ memory\_gate(r)= local\_valid(r)\land transfer\_valid(r)\land no\_risk\_skew(r)\land provenance\_audited(r) \]

论文自身边界

OEP 的 ACT 设计需要 domain expertise,构造 severe but plausible consequences 有工程成本。评估主要集中在单 agent;多 agent 系统可能有交叉审查机会,但也可能被更复杂地污染。论文提出 Auto Search 与 MAS Debate,两者能降低 ASR,但不能完全消除 OEP。

One More Thing

这篇和 AgentDevel 拼起来,几乎就是一个可做的 paper skeleton:AgentDevel 提供 release gate,OEP 提供 clean-case memory poisoning probe。我们的贡献可以是:在 release gate 里加入 transferability-aware drift monitor,证明它比普通 content filter / LLM auditor 更能阻止局部经验污染。

下一篇 MemoryGraft 会进一步补充“过去经验如何被检索并污染 reasoning core”。OEP 主要攻击 memory consolidation,MemoryGraft 更像攻击 retrieval/use 阶段。两篇合起来,memory drift monitor 的输入/写入/检索/应用四个 checkpoint 就完整了。

Reference / Evidence

Reading basis

Based on the public arXiv PDF, arXiv abstract page, and public arXiv source package retrieved on 2026-05-26. This page is a paper2html deep-reading note, not a reproduction report.