LLM-based agents are becoming increasingly capable, yet their safety lags behind. This creates a gap between what agents can do and should do. This gap widens as agents engage in multi-turn interactions and employ diverse tools, introducing new risks overlooked by existing benchmarks. To systematically scale safety testing into multi-turn, tool-realistic settings, we propose a principled taxonomy that transforms single-turn harmful tasks into multi-turn attack sequences. Using this taxonomy, we construct MT-AgentRisk (Multi-Turn Agent Risk Benchmark), the first benchmark to evaluate multi-turn tool-using agent safety. Our experiments reveal substantial safety degradation: the Attack Success Rate (ASR) increases by 16% on average across open and closed models in multi-turn settings. To close this gap, we propose ToolShield, a training-free, tool-agnostic, self-exploration defense: when encountering a new tool, the agent autonomously generates test cases, executes them to observe downstream effects, and distills safety experiences for deployment. Experiments show that ToolShield effectively reduces ASR by 30% on average in multi-turn interactions. Our code is available at https://github.com/CHATS-lab/ToolShield.


翻译:基于大语言模型的智能体能力日益增强,但其安全性仍相对滞后,导致其“能做什么”与“应做什么”之间存在差距。当智能体进行多轮交互并调用多种工具时,这一差距进一步扩大,引入了现有基准测试未能覆盖的新型风险。为系统性地将安全测试扩展至多轮、工具逼真的场景,我们提出一套原则性分类体系,将单轮有害任务转化为多轮攻击序列。基于该分类体系,我们构建了MT-AgentRisk(多轮智能体风险基准测试),这是首个评估多轮工具使用智能体安全性的基准。实验表明,多轮设置下安全性能显著下降:开源与闭源模型的攻击成功率(ASR)平均提升16%。为缩小这一差距,我们提出ToolShield——一种无需训练、工具无关、自我探索的防御机制:当遇到新工具时,智能体自动生成测试用例并执行以观察下游效应,进而提炼安全经验用于部署。实验表明,在多轮交互中,ToolShield可将ASR平均降低30%。代码已开源:https://github.com/CHATS-lab/ToolShield。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
智能体安全综述:应用、威胁与防御
专知会员服务
43+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
智能体安全综述:应用、威胁与防御
专知会员服务
43+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员