As large language models (LLMs) are increasingly deployed in user-facing systems, black-box jailbreak defense has become an important practical problem. Existing defenses often rely on known-attack coverage, prompt-level semantic judgment, or local runtime control, yet these paths can become unstable under evolving prompt packaging, expression rewriting, and structure manipulation. We observe that many black-box jailbreaks do not remove the harmful goal, but reorganize the information needed to express and execute it, thereby evading safety alignment while remaining recoverable during generation. Motivated by this observation, we propose DoubtProbe, a dual-branch inference-time defense framework that combines structural verification with semantic auditing and formulates black-box jailbreak defense as consistency checking under controlled transformation. The structural branch extracts a structured representation from the original request, reconstructs the request under representation constraints, and detects information-preservation failures between the original and reconstructed requests; the semantic branch audits the original prompt directly. We evaluate DoubtProbe against representative black-box defenses on jailbreak and benign-request benchmarks, and further test backbone transfer from Qwen2.5-72B to Llama-3.1-70B. Results show that DoubtProbe achieves a stronger and more stable defense-utility trade-off: on Qwen2.5-72B, it reduces the JBB attack success rate from 0.293 to 0.100 and the CodeAttack attack success rate from 0.152 to 0.001, while maintaining false positive rates of 0.022 and 0.016 on AlpacaEval and OR-Bench; the same pattern remains stable on Llama-3.1-70B. These findings show that structural inconsistency signals provide a practical and generalizable basis for black-box jailbreak defense, especially when combined with semantic auditing.


翻译:随着大语言模型(LLM)越来越多地部署在面向用户的系统中,黑盒越狱防御已成为一个重要的实际问题。现有防御方法通常依赖已知攻击覆盖范围、提示级语义判断或本地运行时控制,但在不断演变的提示包装、表达重写和结构操纵下,这些路径可能变得不稳定。我们观察到,许多黑盒越狱攻击并未移除有害目标,而是重新组织了表达和执行该目标所需的信息,从而在逃逸安全对齐的同时,仍能在生成过程中被恢复。基于这一观察,我们提出了DoubtProbe,一种双分支推理时防御框架,将结构验证与语义审计相结合,将黑盒越狱防御形式化为受控变换下的一致性检查。结构分支从原始请求中提取结构化表示,在表示约束下重建请求,并检测原始请求与重建请求之间的信息保持失败;语义分支则直接审计原始提示。我们在越狱和良性请求基准上评估了DoubtProbe与代表性黑盒防御方法的对比效果,并进一步测试了从Qwen2.5-72B到Llama-3.1-70B的骨干迁移能力。结果表明,DoubtProbe实现了更强且更稳定的防御-效用权衡:在Qwen2.5-72B上,它将JBB攻击成功率从0.293降至0.100,将CodeAttack攻击成功率从0.152降至0.001,同时在AlpacaEval和OR-Bench上分别维持0.022和0.016的误报率;这一结果模式在Llama-3.1-70B上保持稳定。这些发现表明,结构不一致信号为黑盒越狱防御提供了实用且可泛化的基础,尤其是在与语义审计相结合时。

0
下载
关闭预览

相关内容

《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
24+阅读 · 5月30日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
22+阅读 · 2025年4月28日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
22+阅读 · 2025年4月27日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
专知会员服务
23+阅读 · 2021年8月22日
分享8个强大的黑客技术学习网站
黑客技术与网络安全
89+阅读 · 2019年8月29日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
151+阅读 · 2019年4月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员