Large language model agents equipped with persistent memory are vulnerable to memory poisoning attacks, where adversaries inject malicious instructions through query only interactions that corrupt the agents long term memory and influence future responses. Recent work demonstrated that the MINJA (Memory Injection Attack) achieves over 95 % injection success rate and 70 % attack success rate under idealized conditions. However, the robustness of these attacks in realistic deployments and effective defensive mechanisms remain understudied. This work addresses these gaps through systematic empirical evaluation of memory poisoning attacks and defenses in Electronic Health Record (EHR) agents. We investigate attack robustness by varying three critical dimensions: initial memory state, number of indication prompts, and retrieval parameters. Our experiments on GPT-4o-mini, Gemini-2.0-Flash and Llama-3.1-8B-Instruct models using MIMIC-III clinical data reveal that realistic conditions with pre-existing legitimate memories dramatically reduce attack effectiveness. We then propose and evaluate two novel defense mechanisms: (1) Input/Output Moderation using composite trust scoring across multiple orthogonal signals, and (2) Memory Sanitization with trust-aware retrieval employing temporal decay and pattern-based filtering. Our defense evaluation reveals that effective memory sanitization requires careful trust threshold calibration to prevent both overly conservative rejection (blocking all entries) and insufficient filtering (missing subtle attacks), establishing important baselines for future adaptive defense mechanisms. These findings provide crucial insights for securing memory-augmented LLM agents in production environments.


翻译:配备持久性记忆的大语言模型智能体易受记忆投毒攻击,攻击者仅通过查询交互注入恶意指令,即可污染智能体的长期记忆并影响其未来响应。近期研究表明,MINJA(记忆注入攻击)在理想条件下可实现超过95%的注入成功率和70%的攻击成功率。然而,这些攻击在实际部署中的鲁棒性及有效防御机制仍未得到充分研究。本研究通过对电子健康记录(EHR)智能体中的记忆投毒攻击与防御进行系统性实证评估,以填补这些空白。我们通过改变三个关键维度来探究攻击的鲁棒性:初始记忆状态、诱导提示数量以及检索参数。我们在GPT-4o-mini、Gemini-2.0-Flash和Llama-3.1-8B-Instruct模型上使用MIMIC-III临床数据进行的实验表明,在存在预先合法记忆的现实条件下,攻击效果会显著降低。随后,我们提出并评估了两种新颖的防御机制:(1)基于多路正交信号的复合信任评分的输入/输出审核;(2)采用时间衰减与模式过滤的信任感知检索式记忆净化。防御评估表明,有效的记忆净化需要精细的信任阈值校准,以避免过度保守的拒绝(屏蔽所有条目)和过滤不足(遗漏隐蔽攻击),从而为未来自适应防御机制建立了重要基线。这些发现为在生产环境中保护记忆增强型LLM智能体提供了关键见解。

0
下载
关闭预览

相关内容

《针对指挥控制强化学习智能体的对抗攻击》
专知会员服务
31+阅读 · 2月5日
中文版 | 数据投毒:AI驱动战争中优势地位的隐蔽武器
深度学习中的数据投毒:综述
专知会员服务
29+阅读 · 2025年4月1日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
《指挥和控制强化学习智能体的对抗性攻击》
专知会员服务
70+阅读 · 2024年7月6日
《指挥和控制中强化学习智能体的对抗性攻击》
专知会员服务
73+阅读 · 2024年5月11日
专知会员服务
67+阅读 · 2021年1月10日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
1+阅读 · 31分钟前
高效视频扩散模型:进展与挑战
专知会员服务
0+阅读 · 今天13:34
乌克兰前线的五项创新
专知会员服务
5+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
3+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
3+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
3+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
12+阅读 · 4月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员