Production LLM agents with tool-using capabilities require security testing despite their safety training. We adapt Go-Explore to evaluate GPT-4o-mini across 28 experimental runs spanning six research questions. We find that random-seed variance dominates algorithmic parameters, yielding an 8x spread in outcomes; single-seed comparisons are unreliable, while multi-seed averaging materially reduces variance in our setup. Reward shaping consistently harms performance, causing exploration collapse in 94% of runs or producing 18 false positives with zero verified attacks. In our environment, simple state signatures outperform complex ones. For comprehensive security testing, ensembles provide attack-type diversity, whereas single agents optimize coverage within a given attack type. Overall, these results suggest that seed variance and targeted domain knowledge can outweigh algorithmic sophistication when testing safety-trained models.


翻译:具备工具使用能力的生产级LLM智能体尽管经过安全训练,仍需要进行安全测试。我们将Go-Explore方法进行调整,以评估GPT-4o-mini模型,共进行了涵盖六个研究问题的28次实验运行。研究发现,随机种子方差对算法参数的影响占主导地位,导致结果产生高达8倍的差异;单种子比较结果不可靠,而在我们的实验设置中,多种子平均法能实质性地降低方差。奖励塑形持续损害性能,在94%的运行中导致探索崩溃,或产生18个零验证攻击的误报。在我们的实验环境中,简单的状态特征表示优于复杂的特征表示。为实现全面的安全测试,集成方法能提供攻击类型的多样性,而单一智能体则能在给定攻击类型内优化覆盖范围。总体而言,这些结果表明,在测试经过安全训练的模型时,种子方差和针对性领域知识的影响可能超过算法复杂性的影响。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
17+阅读 · 2025年11月26日
《人工智能红队测试的再审视》
专知会员服务
15+阅读 · 2025年9月2日
基于大语言模型的智能体优化研究综述
专知会员服务
63+阅读 · 2025年3月25日
《评估生成式人工智能的红队方法》最新37页长综述
专知会员服务
56+阅读 · 2024年5月27日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月1日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员