AI agents are autonomous systems that combine LLMs with external tools to solve complex tasks. While such tools extend capability, improper tool permissions introduce security risks such as indirect prompt injection and tool misuse. We characterize these failures as unbalanced tool-driven agency. Agents may retain unnecessary permissions (excessive agency) or fail to invoke required tools (insufficient agency), amplifying the attack surface and reducing performance. We introduce AgenTRIM, a framework for detecting and mitigating tool-driven agency risks without altering an agent's internal reasoning. AgenTRIM addresses these risks through complementary offline and online phases. Offline, AgenTRIM reconstructs and verifies the agent's tool interface from code and execution traces. At runtime, it enforces per-step least-privilege tool access through adaptive filtering and status-aware validation of tool calls. Evaluating on the AgentDojo benchmark, AgenTRIM substantially reduces attack success while maintaining high task performance. Additional experiments show robustness to description-based attacks and effective enforcement of explicit safety policies. Together, these results demonstrate that AgenTRIM provides a practical, capability-preserving approach to safer tool use in LLM-based agents.


翻译:人工智能智能体是结合大型语言模型与外部工具以解决复杂任务的自主系统。尽管此类工具扩展了能力,但不恰当的工具权限会引入安全风险,例如间接提示注入和工具滥用。我们将这些故障表征为不平衡的工具驱动代理性。智能体可能保留不必要的权限(代理性过度)或未能调用必需的工具(代理性不足),从而扩大攻击面并降低性能。我们提出AgenTRIM,一个无需改变智能体内部推理即可检测和缓解工具驱动代理性风险的框架。AgenTRIM通过互补的离线和在线阶段应对这些风险。离线阶段,AgenTRIM从代码和执行轨迹中重建并验证智能体的工具接口。在运行时,它通过自适应过滤和工具调用的状态感知验证,强制执行基于步骤的最小权限工具访问。在AgentDojo基准测试上的评估表明,AgenTRIM显著降低了攻击成功率,同时保持了高任务性能。额外实验显示其对基于描述的攻击具有鲁棒性,并能有效执行明确的安全策略。综合来看,这些结果表明AgenTRIM为基于大型语言模型的智能体提供了一种实用且保持能力的工具安全使用方法。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
先进人工智能的多智能体风险
专知会员服务
25+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月10日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
先进人工智能的多智能体风险
专知会员服务
25+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员