Evolutionary prompt search is a practical black-box approach for red teaming large language models, however existing methods often collapse onto a small family of high-performing prompts, limiting coverage of distinct failure modes. We present a speciated quality-diversity extension of \textit{ToxSearch} that maintains multiple high-toxicity prompt niches in parallel rather than optimizing a single best prompt. \textit{ToxSearch-S} introduces unsupervised prompt speciation via a search methodology that maintains capacity-limited species with exemplar leaders, a reserve pool for emerging niches, and species-aware parent selection that trades off within-niche exploitation and cross-niche exploration. Preliminary results show \textit{ToxSearch-S} reaching higher peak toxicity ($\approx 0.73$ vs.\ $\approx 0.47$) with a heavier tail (top-10 median $0.66$ vs.\ $0.45$) than the baseline. Speciation also yields broader semantic coverage under a topics-as-species analysis (higher effective topic diversity and larger unique topic coverage). Finally, species formed are well-separated in embedding space (mean separation ratio $\approx 1.93$) and exhibit distinct toxicity distributions, indicating that speciation partitions the adversarial space into behaviorally differentiated niches rather than superficial lexical variants.


翻译:进化式提示搜索是对大型语言模型进行红队测试的一种实用黑盒方法,但现有方法常收敛于少数高性能提示家族,限制了不同失败模式的覆盖范围。我们提出一种基于物种分化的质量多样性扩展方法\textit{ToxSearch-S},通过并行维护多个高毒性提示生态位,而非优化单一最佳提示。\textit{ToxSearch-S}引入无监督提示物种分化,其搜索机制包含:容量受限的物种及其代表模板、为新兴生态位预留的储备池,以及平衡生态位内开发与跨生态位探索的物种感知父代选择策略。初步结果显示,\textit{ToxSearch-S}的峰值毒性更高($\approx 0.73$ vs.\ $\approx 0.47$),且尾部更厚(前十位中位数 $0.66$ vs.\ $0.45$)。基于主题-物种分析表明,物种分化还带来更广的语义覆盖(更高的有效主题多样性和更大的唯一主题覆盖率)。最终形成的物种在嵌入空间中分离良好(平均分离比 $\approx 1.93$),且呈现差异化毒性分布,表明该机制将对抗空间划分为行为可分的生态位,而非表层词汇变体。

0
下载
关闭预览

相关内容

互联网
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型表示工程的分类、机会与挑战
专知会员服务
22+阅读 · 2025年2月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型表示工程的分类、机会与挑战
专知会员服务
22+阅读 · 2025年2月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员