LLM agents are highly vulnerable to Indirect Prompt Injection (IPI), where adversaries embed malicious directives in untrusted tool outputs to hijack execution. Most existing defenses treat IPI as an input-level semantic discrimination problem, which often fails to generalize to unseen payloads. We propose a new paradigm, action-level causal attribution, which secures agents by asking why a particular tool call is produced. The central goal is to distinguish tool calls supported by the user's intent from those causally driven by untrusted observations. We instantiate this paradigm with AttriGuard, a runtime defense based on parallel counterfactual tests. For each proposed tool call, AttriGuard verifies its necessity by re-executing the agent under a control-attenuated view of external observations. Technically, AttriGuard combines teacher-forced shadow replay to prevent attribution confounding, hierarchical control attenuation to suppress diverse control channels while preserving task-relevant information, and a fuzzy survival criterion that is robust to LLM stochasticity. Across four LLMs and two agent benchmarks, AttriGuard achieves 0% ASR under static attacks with negligible utility loss and moderate overhead. Importantly, it remains resilient under adaptive optimization-based attacks in settings where leading defenses degrade significantly.


翻译:LLM智能体极易受到间接提示注入(IPI)攻击,攻击者将恶意指令嵌入不可信的工具输出中,以劫持执行流程。现有防御大多将IPI视为输入层语义判别问题,往往难以泛化至未知攻击载荷。我们提出一种新范式——动作层因果归因,通过追问"为何产生特定工具调用"来保障智能体安全。其核心目标在于区分由用户意图支撑的工具调用与由不可信观测因果驱动的工具调用。我们通过AttriGuard实例化该范式,这是一种基于并行反事实测试的运行时防御机制。针对每个待调用的工具,AttriGuard通过在外界观测的控制衰减视图下重新执行智能体来验证工具调用的必要性。技术上,AttriGuard融合了三项创新:采用教师强制影子重放以避免归因混淆、设计层级化控制衰减以抑制多元控制信道同时保留任务相关信息、建立对LLM随机性具有鲁棒性的模糊存活准则。在四种LLM和两个智能体基准测试中,AttriGuard在静态攻击下实现0%攻击成功率,同时保持可忽略的效用损失和适度的计算开销。更重要的是,在自适应优化攻击场景下,当主流防御性能显著下降时,该方法仍保持强韧性。

0
下载
关闭预览

相关内容

智能体安全综述:应用、威胁与防御
专知会员服务
43+阅读 · 2025年10月12日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》
专知会员服务
24+阅读 · 2025年2月14日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员