Self-evolving LLM agents update their internal state across sessions, often by writing and reusing long-term memory. This design improves performance on long-horizon tasks but creates a security risk: untrusted external content observed during a benign session can be stored as memory and later treated as instruction. We study this risk and formalize a persistent attack we call a Zombie Agent, where an attacker covertly implants a payload that survives across sessions, effectively turning the agent into a puppet of the attacker. We present a black-box attack framework that uses only indirect exposure through attacker-controlled web content. The attack has two phases. During infection, the agent reads a poisoned source while completing a benign task and writes the payload into long-term memory through its normal update process. During trigger, the payload is retrieved or carried forward and causes unauthorized tool behavior. We design mechanism-specific persistence strategies for common memory implementations, including sliding-window and retrieval-augmented memory, to resist truncation and relevance filtering. We evaluate the attack on representative agent setups and tasks, measuring both persistence over time and the ability to induce unauthorized actions while preserving benign task quality. Our results show that memory evolution can convert one-time indirect injection into persistent compromise, which suggests that defenses focused only on per-session prompt filtering are not sufficient for self-evolving agents.


翻译:自我进化的LLM代理通过跨会话更新内部状态(通常借助长期记忆的写入与复用)来提升长期任务性能,但这种设计也带来了安全风险:良性会话期间观察到的不可信外部内容可能被存储为记忆,并在后续被当作指令执行。本研究系统分析了该风险,并形式化定义了一种我们称为"僵尸代理"的持久性攻击——攻击者可隐蔽植入跨会话存活的恶意载荷,从而将代理转化为攻击者的傀儡。我们提出一种仅通过攻击者控制的网页内容进行间接暴露的黑盒攻击框架。该攻击包含两个阶段:感染阶段,代理在执行良性任务时读取被污染的信息源,并通过正常更新流程将恶意载荷写入长期记忆;触发阶段,恶意载荷被检索或传递,进而引发未授权的工具行为。针对滑动窗口记忆和检索增强记忆等常见记忆实现机制,我们设计了抗截断与相关性过滤的机制特异性持久化策略。通过在典型代理配置和任务场景中的评估,我们同时测量了攻击的跨会话持久性和诱导未授权行为的能力(同时保持良性任务质量)。实验结果表明,记忆进化机制可将单次间接注入转化为持久性入侵,这意味着仅关注单会话提示过滤的防御策略对自我进化代理而言是不充分的。

0
下载
关闭预览

相关内容

自进化智能体综述:通往人工超级智能之路
专知会员服务
38+阅读 · 2025年7月30日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
大模型如何迭代?北大等《大型语言模型自我进化》综述
一文读懂自注意力机制:8大步骤图解+代码
新智元
153+阅读 · 2019年11月26日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
【论文笔记】自注意力机制学习句子embedding
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
5+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员