Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO - 专知论文

会员服务 ·

0

Learning · TEAM · MoDELS · 语言模型化 · AI ·

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

翻译：学会攻击与防御：基于GRPO的语言模型适应性红队对抗

Blake Bullwinkel,Eugenia Kim,Amanda Minnich,Mark Russinovich

AI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tandem. Recent works have demonstrated the efficacy of attacker-defender co-training by applying PPO and DPO, but report that GRPO is unstable in this setting. We introduce AdvGRPO, a co-training framework that makes GRPO viable for joint attacker-defender optimization using dense multi-channel rewards and decoupled advantage normalization. Training progresses through a curriculum from single-turn to closed-loop multi-turn attacks before bootstrapping co-training, where attacker and defender models are updated in alternation. We show that our method can produce highly effective and transferable attacks and that co-trained defenders outperform baselines on safety benchmarks.

翻译：人工智能红队对抗必须持续适应不断演变的攻击者和防御者。强化学习为发现新型攻击提供了有前景的方法，而协同训练方法可同步生成更鲁棒的防御者。近期研究已验证攻击者-防御者协同训练的有效性（通过PPO和DPO实现），但指出GRPO在此场景下存在不稳定性。我们提出AdvGRPO协同训练框架，通过密集多通道奖励与解耦优势归一化，使GRPO能够实现攻击者与防御者的联合优化。训练过程遵循课程式设计：从单轮攻击过渡到闭环多轮攻击，再引导至协同训练阶段（交替更新攻击者与防御者模型）。实验表明，该方法可生成高有效性与可迁移性的攻击，且协同训练后的防御者在安全基准测试中显著优于基线模型。

0

相关内容

Learning

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

8+阅读 · 7月23日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

23+阅读 · 2025年9月15日

【新书】AI红队演练：智能系统的攻击与防御

【新书】AI红队演练：智能系统的攻击与防御

专知会员服务

29+阅读 · 2025年7月6日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

56+阅读 · 2023年5月1日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

97+阅读 · 2021年1月17日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【综述】基于图的对抗式攻击和防御，附22页论文下载

【综述】基于图的对抗式攻击和防御，附22页论文下载

专知会员服务

69+阅读 · 2020年3月5日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

64+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

97+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving

Arxiv

0+阅读 · 6月12日

Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models

Arxiv

0+阅读 · 6月9日

Robust In-Context Reinforcement Learning Under Reward Poisoning Attacks

Arxiv

0+阅读 · 6月5日

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

Arxiv

0+阅读 · 6月5日

Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

The Adversarial Discount - AI, Signal Correlation, and the Cybersecurity Arms Race

Arxiv

0+阅读 · 5月5日

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation

Arxiv

0+阅读 · 3月29日

VIP会员

文章信息

相关主题

语言模型化

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

8+阅读 · 7月23日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

美国防部机构推动人工智能红队测试演进：DARPA“战场效能鲁棒性人工智能安全”（SABER）项目

专知会员服务

23+阅读 · 2025年9月15日

【新书】AI红队演练：智能系统的攻击与防御

【新书】AI红队演练：智能系统的攻击与防御

专知会员服务

29+阅读 · 2025年7月6日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

56+阅读 · 2023年5月1日

针对深度学习模型的对抗性攻击与防御

专知会员服务

49+阅读 · 2021年5月17日

面向深度学习模型的对抗攻击与防御方法综述

专知会员服务

97+阅读 · 2021年1月17日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

【综述】基于图的对抗式攻击和防御，附22页论文下载

【综述】基于图的对抗式攻击和防御，附22页论文下载

专知会员服务

69+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

相关论文

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Arxiv

0+阅读 · 6月15日

From Attacks to Curricula: Learnability-Guided Adversarial Training for Safe Autonomous Driving

Arxiv

0+阅读 · 6月12日

Comparative Analysis of Inference-Time Defense Methods for Multimodal Large Language Models

Arxiv

0+阅读 · 6月9日

Robust In-Context Reinforcement Learning Under Reward Poisoning Attacks

Arxiv

0+阅读 · 6月5日

Beyond Pass/Fail: Using Process Mining to Understand How LLMs Resist (and Fail) Red Team Attacks

Arxiv

0+阅读 · 6月5日

Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning

Arxiv

0+阅读 · 6月3日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

The Adversarial Discount - AI, Signal Correlation, and the Cybersecurity Arms Race

Arxiv

0+阅读 · 5月5日

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation

Arxiv

0+阅读 · 3月29日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

64+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

97+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员