From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents - 专知论文

会员服务 ·

0

攻击 · 中毒攻击 · 系统 · 设计 · AI ·

From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents

翻译：从不可信输入到可信记忆：LLM代理中记忆中毒攻击的系统性研究

Pritam Dash,Tongyu Ge,Aditi Jain,Tanmay Shah,Zhiwei Shang

Memory is a core component of AI agents, enabling them to accumulate knowledge across interactions and improve performance. However, persistent memory introduces the risk of memory poisoning, where a single adversarial memory write can exert long-term influence over agent behavior. We present a systematic study of memory poisoning in LLM-based agents. We identify four memory write channels and nine structural vulnerabilities in model capabilities, system prompt design, and agent system architecture that make these channels exploitable. Based on these vulnerabilities, we develop a taxonomy of six classes of memory poisoning attacks. Furthermore, we design MPBench -- a benchmark for evaluating memory poisoning attacks, and show that agents designed to write and retrieve memory more aggressively are more exploitable. We also show that existing prompt injection defenses fail to cover memory poisoning attacks. Our findings provide a foundation for understanding and mitigating memory poisoning attacks against AI agents.

翻译：记忆是AI代理的核心组件，使其能够跨交互积累知识并提升性能。然而，持久性记忆带来了记忆中毒的风险——单次对抗性记忆写入即可对代理行为产生长期影响。我们对基于LLM的代理中的记忆中毒进行了系统性研究，识别出四个记忆写入通道以及模型能力、系统提示设计和代理系统架构中的九类结构性漏洞，这些漏洞使得上述通道可被利用。基于这些漏洞，我们建立了一个包含六类记忆中毒攻击的分类体系。此外，我们设计了MPBench——一个用于评估记忆中毒攻击的基准测试，并证明设计为更积极进行记忆写入和检索的代理更具可攻击性。我们还发现现有提示注入防御措施无法覆盖记忆中毒攻击。我们的研究为理解和防御针对AI代理的记忆中毒攻击奠定了基础。

0

相关内容

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

15+阅读 · 4月23日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

21+阅读 · 2月26日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

36+阅读 · 2025年12月16日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

深度学习模型的中毒攻击与防御综述

专知会员服务

67+阅读 · 2021年1月10日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

AINLP

14+阅读 · 2019年9月22日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

拒绝服务攻击下的信息物理系统安全理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

MemRefine: LLM-Guided Compression for Long-Term Agent Memory

Arxiv

0+阅读 · 6月11日

A Survey on Long-Term Memory Security in LLM Agents: Attacks, Defenses, and Governance Across the Memory Lifecycle

Arxiv

0+阅读 · 6月11日

SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems

Arxiv

0+阅读 · 6月10日

Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

Arxiv

0+阅读 · 6月9日

Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

Arxiv

0+阅读 · 6月7日

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Arxiv

0+阅读 · 6月5日

From Storage to Steering: Memory Control Flow Attacks on LLM Agents

Arxiv

0+阅读 · 6月5日

Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents

Arxiv

0+阅读 · 5月20日

Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory

Arxiv

0+阅读 · 5月19日

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

15+阅读 · 4月23日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

21+阅读 · 2月26日

AI智能体时代中的记忆：形式、功能与动态综述

AI智能体时代中的记忆：形式、功能与动态综述

专知会员服务

36+阅读 · 2025年12月16日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

29+阅读 · 2025年4月1日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

深度学习模型的中毒攻击与防御综述

专知会员服务

67+阅读 · 2021年1月10日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

AINLP

14+阅读 · 2019年9月22日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

相关论文

MemRefine: LLM-Guided Compression for Long-Term Agent Memory

Arxiv

0+阅读 · 6月11日

A Survey on Long-Term Memory Security in LLM Agents: Attacks, Defenses, and Governance Across the Memory Lifecycle

Arxiv

0+阅读 · 6月11日

SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems

Arxiv

0+阅读 · 6月10日

Infini Memory: Maintainable Topic Documents for Long-Term LLM Agent Memory

Arxiv

0+阅读 · 6月9日

Data Agents Under Attack: Vulnerabilities in LLM-Driven Analytical Systems

Arxiv

0+阅读 · 6月7日

Less Context, More Accuracy: A Bi-Temporal Memory Engine for LLM Agents Where a Lean Retrieved Context Beats the Full History

Arxiv

0+阅读 · 6月5日

From Storage to Steering: Memory Control Flow Attacks on LLM Agents

Arxiv

0+阅读 · 6月5日

Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents

Arxiv

0+阅读 · 5月20日

Rethinking How to Remember: Beyond Atomic Facts in Lifelong LLM Agent Memory

Arxiv

0+阅读 · 5月19日

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

Arxiv

0+阅读 · 5月18日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

拒绝服务攻击下的信息物理系统安全理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员