As Large Language Models (LLMs) are increasingly deployed in complex applications, their vulnerability to adversarial attacks raises urgent safety concerns, especially those evolving over multi-round interactions. Existing defenses are largely reactive and struggle to adapt as adversaries refine strategies across rounds. In this work, we propose CoopGuard , a stateful multi-round LLM defense framework based on cooperative agents that maintains and updates an internal defense state to counter evolving attacks. It employs three specialized agents (Deferring Agent, Tempting Agent, and Forensic Agent) for complementary round-level strategies, coordinated by System Agent, which conditions decisions on the evolving defense state (interaction history) and orchestrates agents over time. To evaluate evolving threats, we introduce the EMRA benchmark with 5,200 adversarial samples across 8 attack types, simulating progressively LLM multi-round attacks. Experiments show that CoopGuard reduces attack success rate by 78.9% over state-of-the-art defenses, while improving deceptive rate by 186% and reducing attack efficiency by 167.9%, offering a more comprehensive assessment of multi-round defense. These results demonstrate that CoopGuard provides robust protection for LLMs in multi-round adversarial scenarios.


翻译:随着大语言模型在复杂应用中的广泛部署,其面临对抗攻击(尤其是多轮交互中动态演化的攻击)的脆弱性引发了迫切的安全关切。现有防御手段多为被动响应式,难以适应攻击方跨轮次调整策略的演化特性。本文提出CoopGuard——一种基于协作智能体的带状态多轮大语言模型防御框架,通过维护并持续更新内部防御状态以应对演化型攻击。该框架部署三个专用智能体(延迟智能体、诱饵智能体与取证智能体)实施互补的轮级策略,并由系统智能体根据演化防御状态(交互历史)协调决策与智能体编排时序。为评估演化威胁,我们构建了包含5,200个对抗样本(覆盖8种攻击类型)的EMRA基准测试集,模拟渐进式多轮大语言模型攻击。实验表明,相较于现有最优防御方案,CoopGuard将攻击成功率降低78.9%,同时使欺骗率提升186%、攻击效率降低167.9%,实现了对多轮防御能力的更全面评估。这些结果证明CoopGuard能为多轮对抗场景中的大语言模型提供稳健防护。

0
下载
关闭预览

相关内容

AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
基于态势演化博弈的无人机集群动态攻防
专知会员服务
99+阅读 · 2023年9月3日
面向多智能体博弈对抗的对手建模框架
专知会员服务
165+阅读 · 2022年9月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
44+阅读 · 2025年1月19日
基于态势演化博弈的无人机集群动态攻防
专知会员服务
99+阅读 · 2023年9月3日
面向多智能体博弈对抗的对手建模框架
专知会员服务
165+阅读 · 2022年9月28日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员