While recent automated red-teaming methods show promise for systematically exposing model vulnerabilities, most existing approaches rely on human-specified workflows. This dependence on manually designed workflows suffers from human biases and makes exploring the broader design space expensive. We introduce AgenticRed, an automated pipeline that leverages LLMs' in-context learning to iteratively design and refine red-teaming systems without human intervention. Rather than optimizing attacker policies within predefined structures, AgenticRed treats red-teaming as a system design problem, and it autonomously evolves automated red-teaming systems using evolutionary selection and generational knowledge. Red-teaming systems designed by AgenticRed consistently outperform state-of-the-art approaches, achieving 96% attack success rate (ASR) on Llama-2-7B, 98% on Llama-3-8B and 100% on Qwen3-8B on HarmBench. Our approach generates robust, query-agnostic red-teaming systems that transfer strongly to the latest proprietary models, achieving an impressive 100% ASR on GPT-5.1, DeepSeek-R1 and DeepSeek V3.2. This work highlights evolutionary algorithms as a powerful approach to AI safety that can keep pace with rapidly evolving models.


翻译:尽管近期自动化红队测试方法在系统性暴露模型漏洞方面展现出潜力,但现有方法大多依赖人工设定的工作流程。这种对人工设计流程的依赖不仅受人类偏见影响,更导致设计空间探索成本高昂。我们提出AgenticRed——一种无需人工干预、利用大语言模型的上下文学习能力迭代设计与优化红队测试系统的自动化管道。与在预设结构内优化攻击策略不同,AgenticRed将红队测试视为系统设计问题,通过进化选择与代际知识自主进化自动化红队系统。经AgenticRed设计的红队测试系统始终优于现有最优方法:在HarmBench基准测试中,其对Llama-2-7B、Llama-3-8B和Qwen3-8B的攻击成功率分别达96%、98%和100%。该方法生成的鲁棒性查询无关红队系统具备强迁移性,在最新专有模型上表现卓越——对GPT-5.1、DeepSeek-R1及DeepSeek V3.2的攻击成功率均达100%。本研究凸显进化算法作为能同步快速迭代模型的强大AI安全方案的有效性。

0
下载
关闭预览

相关内容

AgentRxiv:迈向协作式自主科学研究
专知会员服务
11+阅读 · 2月20日
《大语言模型驱动的智能红队测试》
专知会员服务
18+阅读 · 2025年11月26日
Agent视域下的人工智能赋能作战系统
专知会员服务
58+阅读 · 2024年12月15日
基于Multi-Agent的无人机集群体系自主作战系统设计
专知会员服务
76+阅读 · 2024年4月8日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
深度解读:小米AI实验室AutoML团队最新成果FairNAS
PaperWeekly
32+阅读 · 2019年7月11日
一文看懂AutoEncoder模型演进图谱
AINLP
12+阅读 · 2019年6月17日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员