大规模实证案例研究：适用于AI红队测试的Go-Explore方法 (Large Empirical Case Study: Go-Explore adapted for AI Red Team Testing) - 专知论文

会员服务 ·

0

方差 · 攻击 · AI · 特征表示 · 表示 ·

2025 年 12 月 31 日

Large Empirical Case Study: Go-Explore adapted for AI Red Team Testing

翻译：大规模实证案例研究：适用于AI红队测试的Go-Explore方法

Manish Bhatt,Adrian Wood,Idan Habler,Ammar Al-Kahfah

Production LLM agents with tool-using capabilities require security testing despite their safety training. We adapt Go-Explore to evaluate GPT-4o-mini across 28 experimental runs spanning six research questions. We find that random-seed variance dominates algorithmic parameters, yielding an 8x spread in outcomes; single-seed comparisons are unreliable, while multi-seed averaging materially reduces variance in our setup. Reward shaping consistently harms performance, causing exploration collapse in 94% of runs or producing 18 false positives with zero verified attacks. In our environment, simple state signatures outperform complex ones. For comprehensive security testing, ensembles provide attack-type diversity, whereas single agents optimize coverage within a given attack type. Overall, these results suggest that seed variance and targeted domain knowledge can outweigh algorithmic sophistication when testing safety-trained models.

翻译：具备工具使用能力的生产级LLM智能体尽管经过安全训练，仍需要进行安全测试。我们将Go-Explore方法进行调整，以评估GPT-4o-mini模型，共进行了涵盖六个研究问题的28次实验运行。研究发现，随机种子方差对算法参数的影响占主导地位，导致结果产生高达8倍的差异；单种子比较结果不可靠，而在我们的实验设置中，多种子平均法能实质性地降低方差。奖励塑形持续损害性能，在94%的运行中导致探索崩溃，或产生18个零验证攻击的误报。在我们的实验环境中，简单的状态特征表示优于复杂的特征表示。为实现全面的安全测试，集成方法能提供攻击类型的多样性，而单一智能体则能在给定攻击类型内优化覆盖范围。总体而言，这些结果表明，在测试经过安全训练的模型时，种子方差和针对性领域知识的影响可能超过算法复杂性的影响。

0

相关内容

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

16+阅读 · 2025年11月26日

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

31+阅读 · 2025年10月10日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

14+阅读 · 2025年9月2日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

30+阅读 · 2025年1月5日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

56+阅读 · 2024年5月27日

首发！《大语言生成式人工智能和国土安全项目应用》美军2024最新359页

首发！《大语言生成式人工智能和国土安全项目应用》美军2024最新359页

专知会员服务

60+阅读 · 2024年5月23日

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

专知会员服务

181+阅读 · 2023年3月24日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Scaling Agentic Verifier for Competitive Coding

Arxiv

0+阅读 · 2月4日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

AJAR: Adaptive Jailbreak Architecture for Red-teaming

Arxiv

0+阅读 · 1月16日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

AI red-teaming is a sociotechnical problem: on values, labor, and harms

Arxiv

0+阅读 · 1月7日

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

Arxiv

0+阅读 · 1月7日

Grounded Test-Time Adaptation for LLM Agents

Grounded Test-Time Adaptation for LLM Agents

Arxiv

0+阅读 · 1月5日

Red-Teaming Coding Agents from a Tool-Invocation Perspective: An Empirical Security Assessment

Arxiv

0+阅读 · 1月4日

Red Teaming Large Reasoning Models

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

相关VIP内容

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

16+阅读 · 2025年11月26日

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

31+阅读 · 2025年10月10日

《人工智能红队测试的再审视》

《人工智能红队测试的再审视》

专知会员服务

14+阅读 · 2025年9月2日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

52+阅读 · 2025年8月26日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

59+阅读 · 2025年3月25日

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

《探索大型语言模型在军事联盟网络红队中的应用潜力》最新论文

专知会员服务

30+阅读 · 2025年1月5日

《评估生成式人工智能的红队方法》最新37页长综述

《评估生成式人工智能的红队方法》最新37页长综述

专知会员服务

56+阅读 · 2024年5月27日

首发！《大语言生成式人工智能和国土安全项目应用》美军2024最新359页

首发！《大语言生成式人工智能和国土安全项目应用》美军2024最新359页

专知会员服务

60+阅读 · 2024年5月23日

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

微软最新GPT-4报告！154页pdf《通用人工智能的火花:GPT-4的早期实验》报告，去向AGI之路（附中文版）

专知会员服务

181+阅读 · 2023年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Scaling Agentic Verifier for Competitive Coding

Arxiv

0+阅读 · 2月4日

DREAM: Dynamic Red-teaming across Environments for AI Models

Arxiv

0+阅读 · 2月2日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

AJAR: Adaptive Jailbreak Architecture for Red-teaming

Arxiv

0+阅读 · 1月16日

Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay

Arxiv

0+阅读 · 1月15日

AI red-teaming is a sociotechnical problem: on values, labor, and harms

Arxiv

0+阅读 · 1月7日

RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

Arxiv

0+阅读 · 1月7日

Grounded Test-Time Adaptation for LLM Agents

Grounded Test-Time Adaptation for LLM Agents

Arxiv

0+阅读 · 1月5日

Red-Teaming Coding Agents from a Tool-Invocation Perspective: An Empirical Security Assessment

Arxiv

0+阅读 · 1月4日

Red Teaming Large Reasoning Models

Arxiv

0+阅读 · 1月1日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

17+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于多特征融合的视频足球比赛中的团队行为识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员