Self-play red team is an established approach to improving AI safety in which different instances of the same model play attacker and defender roles in a zero-sum game, i.e., where the attacker tries to jailbreak the defender; if self-play converges to a Nash equilibrium, the model is guaranteed to respond safely within the settings of the game. Although the parameter sharing enforced by the use of the same model for the two roles improves stability and performance, it introduces fundamental theoretical and architectural limitations. We show that the set of Nash equilibria that can be reached corresponds to a broad class of behaviours that includes trivial always refuse strategies and oracle-like defenders, thus limiting practical applicability. We then show that when attacker and defender share and update the same base model, the dynamics collapse to self-consistency, so that attacks do not enforce adversarial pressure on the defender. In response, we propose Anchored Bipolicy Self-Play, which trains distinct role-specific LoRA adapters on top of a frozen base model, thereby maintaining stable optimisation while preserving adversarial pressure through explicit role separation. In relation to standard self-play, we show up to 100x greater parameter efficiency than finetuning and consistent improvements in safety compared to self-play fine-tuned models. We evaluate on Qwen2.5-{3B, 7B,14B}-IT models across widely used safety benchmarks, showing improved robustness without loss of reasoning ability. Cross-play experiments further show that our attacker and defender models are superior to self-play in terms of adversarial defence and safety.


翻译:自我博弈红队攻击是提升人工智能安全性的成熟方法,其核心在于同一模型的不同实例在零和博弈中分别扮演攻击者与防御者角色——即攻击者试图破解防御者。若自我博弈收敛至纳什均衡,则模型能确保在博弈设定范围内安全响应。尽管双角色使用同一模型所带来的参数共享提升了稳定性与性能,但这引入了根本性的理论与架构局限。我们证明:可达到的纳什均衡集合对应着一大类行为,包括琐碎的"始终拒绝"策略与先知式防御者,从而限制了实际应用价值。进一步研究表明,当攻击者与防御者共享并更新同一基础模型时,动态过程会坍缩为自洽性,导致攻击无法对防御者施加对抗压力。为此,我们提出锚定双策略自我博弈:在冻结的基础模型上训练角色专用的LoRA适配器,通过显式角色分离保持优化稳定性的同时维持对抗压力。相较于标准自我博弈,该方法在微调参数效率上提升达100倍,且安全性指标持续优于经过自我博弈微调的模型。我们在Qwen2.5-{3B,7B,14B}-IT模型上采用广泛使用的安全基准进行评估,结果显示该方法在保持推理能力的同时增强了鲁棒性。交叉博弈实验进一步表明,我们的攻击者与防御者模型在对抗防御与安全性方面均优于自我博弈方法。

0
下载
关闭预览

相关内容

《攻击场景描述形式化模型研究》
专知会员服务
32+阅读 · 2025年8月15日
基于博弈论的弹目攻防决策方法研究
专知会员服务
52+阅读 · 2024年7月11日
针对自动驾驶智能模型的攻击与防御
专知会员服务
19+阅读 · 2024年6月25日
专知会员服务
48+阅读 · 2021年5月17日
专知会员服务
67+阅读 · 2021年1月10日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
Self-Attention GAN 中的 self-attention 机制
PaperWeekly
12+阅读 · 2019年3月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《攻击场景描述形式化模型研究》
专知会员服务
32+阅读 · 2025年8月15日
基于博弈论的弹目攻防决策方法研究
专知会员服务
52+阅读 · 2024年7月11日
针对自动驾驶智能模型的攻击与防御
专知会员服务
19+阅读 · 2024年6月25日
专知会员服务
48+阅读 · 2021年5月17日
专知会员服务
67+阅读 · 2021年1月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员