Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models - 专知论文

会员服务 ·

0

对抗 · 鲁棒 · 自动化 · 语言模型 · 模型鲁棒性 ·

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

翻译：基于学习的自动化对抗性红队测试用于大语言模型鲁棒性评估

Zhang Wei,Peilu Hu,Zhenyuan Wei,Chenwei Liang,Jing Luo,Ziyi Ni,Hao Yan,Li Mei,Shengning Lang,Kuan Lu,Ziqian Bi,Xi Xiao,Zhimo Han,Yangfan He,Yijin Wang,Yichao Zhang,Chen Yang,Junfeng Hao,Zhenyu Yu,Jiayi Gu,Riyang Bao,Mu-Jiang-Shan Wang

from arxiv, accepted by EACL

The increasing deployment of large language models (LLMs) in safety-critical applications raises fundamental challenges in systematically evaluating robustness against adversarial behaviors. Existing red-teaming practices are largely manual and expert-driven, which limits scalability, reproducibility, and coverage in high-dimensional prompt spaces. We formulate automated LLM red-teaming as a structured adversarial search problem and propose a learning-driven framework for scalable vulnerability discovery. The approach combines meta-prompt-guided adversarial prompt generation with a hierarchical execution and detection pipeline, enabling standardized evaluation across six representative threat categories, including reward hacking, deceptive alignment, data exfiltration, sandbagging, inappropriate tool use, and chain-of-thought manipulation. Extensive experiments on GPT-OSS-20B identify 47 vulnerabilities, including 21 high-severity failures and 12 previously undocumented attack patterns. Compared with manual red-teaming under matched query budgets, our method achieves a 3.9$\times$ higher discovery rate with 89\% detection accuracy, demonstrating superior coverage, efficiency, and reproducibility for large-scale robustness evaluation.

翻译：随着大语言模型在安全关键应用中的日益广泛部署，系统评估其对抗性行为鲁棒性面临根本性挑战。现有的红队测试实践主要依赖人工和专家驱动，这限制了在高维提示空间中的可扩展性、可复现性和覆盖范围。我们将自动化大语言模型红队测试形式化为结构化对抗搜索问题，并提出一种学习驱动的可扩展漏洞发现框架。该方法结合了元提示引导的对抗性提示生成与分层执行检测流程，实现了跨六个代表性威胁类别的标准化评估，包括奖励攻击、欺骗性对齐、数据窃取、消极抵抗、不当工具使用和思维链操纵。在GPT-OSS-20B上的大量实验识别出47个漏洞，其中包含21个高严重性失效案例和12个先前未记录的攻撃模式。在匹配查询预算条件下与人工红队测试相比，我们的方法实现了3.9倍的发现率提升，检测准确率达89%，证明其在大规模鲁棒性评估中具有更优的覆盖范围、效率和可复现性。

0

相关内容

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

23+阅读 · 4月15日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

17+阅读 · 2025年11月26日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

15+阅读 · 2025年9月2日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

30+阅读 · 2025年1月5日

《人工智能红队中的人为因素：社会与协作计算的视角》

《人工智能红队中的人为因素：社会与协作计算的视角》

专知会员服务

19+阅读 · 2024年7月22日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses

Arxiv

0+阅读 · 3月13日

Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services

Arxiv

0+阅读 · 3月11日

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Arxiv

0+阅读 · 3月9日

Sampling-aware Adversarial Attacks Against Large Language Models

Arxiv

0+阅读 · 2月22日

Dark and Bright Side of Participatory Red-Teaming with Targets of Stereotyping for Eliciting Harmful Behaviors from Large Language Models

Arxiv

0+阅读 · 2月22日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

SearchAttack: Red-Teaming LLMs against Knowledge-to-Action Threats under Online Web Search

Arxiv

0+阅读 · 2月9日

Capability-Based Scaling Trends for LLM-Based Red-Teaming

Arxiv

0+阅读 · 2月8日

Code-Mixed Phonetic Perturbations for Red-Teaming LLMs

Arxiv

0+阅读 · 2月2日

When Search Goes Wrong: Red-Teaming Web-Augmented Large Language Models

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

模型鲁棒性

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

4+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

7+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

7+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

6+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

8+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

9+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

5+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

20+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

20+阅读 · 6月2日

相关VIP内容

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

23+阅读 · 4月15日

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

17+阅读 · 2025年11月26日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

15+阅读 · 2025年9月2日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

30+阅读 · 2025年1月5日

《人工智能红队中的人为因素：社会与协作计算的视角》

《人工智能红队中的人为因素：社会与协作计算的视角》

专知会员服务

19+阅读 · 2024年7月22日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

48+阅读 · 2024年7月9日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

什么是大模型Red-teaming？大模型安全研究《结构大语言模型红蓝对抗》（含下载）

专知会员服务

55+阅读 · 2023年5月1日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

相关论文

PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses

Arxiv

0+阅读 · 3月13日

Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services

Arxiv

0+阅读 · 3月11日

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Arxiv

0+阅读 · 3月9日

Sampling-aware Adversarial Attacks Against Large Language Models

Arxiv

0+阅读 · 2月22日

Dark and Bright Side of Participatory Red-Teaming with Targets of Stereotyping for Eliciting Harmful Behaviors from Large Language Models

Arxiv

0+阅读 · 2月22日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 2月14日

SearchAttack: Red-Teaming LLMs against Knowledge-to-Action Threats under Online Web Search

Arxiv

0+阅读 · 2月9日

Capability-Based Scaling Trends for LLM-Based Red-Teaming

Arxiv

0+阅读 · 2月8日

Code-Mixed Phonetic Perturbations for Red-Teaming LLMs

Arxiv

0+阅读 · 2月2日

When Search Goes Wrong: Red-Teaming Web-Augmented Large Language Models

Arxiv

0+阅读 · 1月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员