LLM-based agents are becoming increasingly capable, yet their safety lags behind. This creates a gap between what agents can do and should do. This gap widens as agents engage in multi-turn interactions and employ diverse tools, introducing new risks overlooked by existing benchmarks. To systematically scale safety testing into multi-turn, tool-realistic settings, we propose a principled taxonomy that transforms single-turn harmful tasks into multi-turn attack sequences. Using this taxonomy, we construct MT-AgentRisk (Multi-Turn Agent Risk Benchmark), the first benchmark to evaluate multi-turn tool-using agent safety. Our experiments reveal substantial safety degradation: the Attack Success Rate (ASR) increases by 16% on average across open and closed models in multi-turn settings. To close this gap, we propose ToolShield, a training-free, tool-agnostic, self-exploration defense: when encountering a new tool, the agent autonomously generates test cases, executes them to observe downstream effects, and distills safety experiences for deployment. Experiments show that ToolShield effectively reduces ASR by 30% on average in multi-turn interactions. Our code is available at https://github.com/CHATS-lab/ToolShield.


翻译:基于大语言模型的智能体能力日益增强,但其安全性却相对滞后,形成了智能体“能做什么”与“应做什么”之间的差距。当智能体进行多轮交互并使用多样化工具时,这一差距会进一步扩大,并引入现有基准测试所忽视的新型风险。为系统性地将安全测试扩展到多轮、工具现实的场景中,我们提出了一种原则性分类法,将单轮有害任务转化为多轮攻击序列。基于此分类法,我们构建了MT-AgentRisk(多轮智能体风险基准),这是首个用于评估多轮工具使用智能体安全性的基准测试。实验结果表明安全性显著下降:在多轮交互场景中,开放与闭源模型的平均攻击成功率(ASR)上升了16%。为弥合这一差距,我们提出了ToolShield——一种免训练、工具无关的自主探索防御机制:当遇到新工具时,智能体自主生成测试用例,执行测试以观察下游影响,并提炼安全经验用于部署。实验表明,ToolShield在多轮交互中平均可有效降低30%的ASR。相关代码已发布于https://github.com/CHATS-lab/ToolShield。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
32+阅读 · 2月2日
智能体安全综述:应用、威胁与防御
专知会员服务
40+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
45+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
25+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
32+阅读 · 2月2日
智能体安全综述:应用、威胁与防御
专知会员服务
40+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
45+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
25+阅读 · 2025年2月22日
【NUS博士论文】面向交互的多智能体行为预测,156页pdf
专知会员服务
32+阅读 · 2024年11月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员