Frontier LLMs are safeguarded against attempts to extract harmful information via adversarial prompts known as "jailbreaks". Recently, defenders have developed classifier-based systems that have survived thousands of hours of human red teaming. We introduce Boundary Point Jailbreaking (BPJ), a new class of automated jailbreak attacks that evade the strongest industry-deployed safeguards. Unlike previous attacks that rely on white/grey-box assumptions (such as classifier scores or gradients) or libraries of existing jailbreaks, BPJ is fully black-box and uses only a single bit of information per query: whether or not the classifier flags the interaction. To achieve this, BPJ addresses the core difficulty in optimising attacks against robust real-world defences: evaluating whether a proposed modification to an attack is an improvement. Instead of directly trying to learn an attack for a target harmful string, BPJ converts the string into a curriculum of intermediate attack targets and then actively selects evaluation points that best detect small changes in attack strength ("boundary points"). We believe BPJ is the first fully automated attack algorithm that succeeds in developing universal jailbreaks against Constitutional Classifiers, as well as the first automated attack algorithm that succeeds against GPT-5's input classifier without relying on human attack seeds. BPJ is difficult to defend against in individual interactions but incurs many flags during optimisation, suggesting that effective defence requires supplementing single-interaction methods with batch-level monitoring.


翻译:前沿大语言模型通过对抗性提示(即“越狱”攻击)防范有害信息提取。近期,防御方开发的基于分类器的系统已成功抵御数千小时的人工红队测试。本文提出边界点越狱攻击——一种新型自动化越狱攻击方法,能够规避当前业界部署的最强安全防护。与以往依赖白盒/灰盒假设(如分类器分数或梯度)或现有越狱库的攻击不同,BPJ采用完全黑盒方式,每次查询仅使用单比特信息:即分类器是否标记该交互。为实现这一目标,BPJ解决了对抗鲁棒性现实防御体系的核心难题:如何评估攻击方案的修改是否构成改进。BPJ并非直接针对目标有害字符串学习攻击方法,而是将该字符串转化为渐进式攻击目标的课程体系,随后主动选择最能检测攻击强度微小变化的评估点(即“边界点”)。我们认为BPJ是首个成功针对宪法分类器开发通用越狱攻击的全自动化算法,也是首个在不依赖人工攻击种子的情况下成功突破GPT-5输入分类器的自动化攻击算法。BPJ在单次交互中难以防御,但在优化过程中会触发大量标记,这表明有效防御需在单次交互检测方法基础上补充批量级监控机制。

0
下载
关闭预览

相关内容

跨越黑盒:大语言模型的理论与机制
专知会员服务
37+阅读 · 1月7日
《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
21+阅读 · 2025年4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
【CVPR2023】基于强化学习的黑盒模型反演攻击
专知会员服务
24+阅读 · 2023年4月12日
图神经网络黑盒攻击近期进展
专知会员服务
19+阅读 · 2022年10月14日
专知会员服务
23+阅读 · 2021年8月22日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
探秘各种主流周界安防技术产品
未来产业促进会
12+阅读 · 2018年11月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
跨越黑盒:大语言模型的理论与机制
专知会员服务
37+阅读 · 1月7日
《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
21+阅读 · 2025年4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
【CVPR2023】基于强化学习的黑盒模型反演攻击
专知会员服务
24+阅读 · 2023年4月12日
图神经网络黑盒攻击近期进展
专知会员服务
19+阅读 · 2022年10月14日
专知会员服务
23+阅读 · 2021年8月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员