RvB：通过迭代红蓝对抗实现AI系统自动强化 (RvB: Automating AI System Hardening via Iterative Red-Blue Games) - 专知论文

会员服务 ·

0

对抗 · AI · 系统 · AI系统 · 攻击 ·

RvB: Automating AI System Hardening via Iterative Red-Blue Games

翻译：RvB：通过迭代红蓝对抗实现AI系统自动强化

Lige Huang,Zicheng Liu,Jie Zhang,Lewen Yan,Dongrui Liu,Jing Shao

The dual offensive and defensive utility of Large Language Models (LLMs) highlights a critical gap in AI security: the lack of unified frameworks for dynamic, iterative adversarial adaptation hardening. To bridge this gap, we propose the Red Team vs. Blue Team (RvB) framework, formulated as a training-free, sequential, imperfect-information game. In this process, the Red Team exposes vulnerabilities, driving the Blue Team to learning effective solutions without parameter updates. We validate our framework across two challenging domains: dynamic code hardening against CVEs and guardrail optimization against jailbreaks. Our empirical results show that this interaction compels the Blue Team to learn fundamental defensive principles, leading to robust remediations that are not merely overfitted to specific exploits. RvB achieves Defense Success Rates of 90\% and 45\% across the respective tasks while maintaining near 0\% False Positive Rates, significantly surpassing baselines. This work establishes the iterative adversarial interaction framework as a practical paradigm that automates the continuous hardening of AI systems.

翻译：大型语言模型（LLM）兼具攻击与防御的双重效用，凸显了当前AI安全领域的关键缺陷：缺乏能够实现动态、迭代式对抗适应性强化的统一框架。为弥补这一空白，我们提出红队对抗蓝队框架，该框架被形式化为一种无需训练、顺序化且具有不完美信息的博弈过程。在此过程中，红队负责暴露系统漏洞，驱动蓝队在不更新参数的情况下学习有效解决方案。我们在两个具有挑战性的领域验证了该框架：针对CVE的动态代码强化和针对越狱攻击的护栏优化。实验结果表明，这种对抗交互迫使蓝队掌握根本性的防御原则，从而产生具有鲁棒性的修复方案，而非仅针对特定攻击的过拟合对策。在保持接近0%误报率的同时，RvB在两项任务中分别实现了90%和45%的防御成功率，显著超越基线方法。本工作确立了迭代式对抗交互框架作为一种实用范式，能够实现AI系统持续强化的自动化。

0

相关内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

16+阅读 · 2025年8月22日

【新书】AI红队演练：智能系统的攻击与防御

【新书】AI红队演练：智能系统的攻击与防御

专知会员服务

28+阅读 · 2025年7月6日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

陆军与大型语言模型：用人工智能革新军事行动

陆军与大型语言模型：用人工智能革新军事行动

专知会员服务

46+阅读 · 2024年6月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

专知会员服务

41+阅读 · 2023年10月20日

通过大语言模型和人工智能的力量改变军事规划

通过大语言模型和人工智能的力量改变军事规划

专知会员服务

150+阅读 · 2023年9月1日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

ChatGPT核心技术“RLHF”如何学习？最新《基于人类反馈的强化学习:从零到chatGPT》综述，附视频与51页slides

ChatGPT核心技术“RLHF”如何学习？最新《基于人类反馈的强化学习:从零到chatGPT》综述，附视频与51页slides

专知会员服务

188+阅读 · 2023年3月2日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

333+阅读 · 2017年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月6日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

RedVisor: Reasoning-Aware Prompt Injection Defense via Zero-Copy KV Cache Reuse

Arxiv

0+阅读 · 2月2日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月2日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 1月28日

AJAR: Adaptive Jailbreak Architecture for Red-teaming

Arxiv

0+阅读 · 1月16日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 22分钟前

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 25分钟前

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

相关VIP内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

16+阅读 · 2025年8月22日

【新书】AI红队演练：智能系统的攻击与防御

【新书】AI红队演练：智能系统的攻击与防御

专知会员服务

28+阅读 · 2025年7月6日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

陆军与大型语言模型：用人工智能革新军事行动

陆军与大型语言模型：用人工智能革新军事行动

专知会员服务

46+阅读 · 2024年6月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

AI增强信息战《ClausewitzGPT框架：理论性大语言模型增强信息战的新前沿》2023最新论文

专知会员服务

41+阅读 · 2023年10月20日

通过大语言模型和人工智能的力量改变军事规划

通过大语言模型和人工智能的力量改变军事规划

专知会员服务

150+阅读 · 2023年9月1日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

ChatGPT核心技术“RLHF”如何学习？最新《基于人类反馈的强化学习:从零到chatGPT》综述，附视频与51页slides

ChatGPT核心技术“RLHF”如何学习？最新《基于人类反馈的强化学习:从零到chatGPT》综述，附视频与51页slides

专知会员服务

188+阅读 · 2023年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

前馈式三维场景建模

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

【CMU博士论文】迈向可扩展的开放世界三维感知

《反小型无人机系统的雷达高度估计相干干扰研究》60页

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

105+阅读 · 2022年4月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月10日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月6日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

RedVisor: Reasoning-Aware Prompt Injection Defense via Zero-Copy KV Cache Reuse

Arxiv

0+阅读 · 2月2日

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Arxiv

0+阅读 · 2月2日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 1月28日

AJAR: Adaptive Jailbreak Architecture for Red-teaming

Arxiv

0+阅读 · 1月16日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

333+阅读 · 2017年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员