In this study, we disclose a worrying new vulnerability in Large Language Models (LLMs), which we term \textbf{involuntary jailbreak}. Unlike existing jailbreak attacks, this weakness is distinct in that it does not involve a specific attack objective, such as generating instructions for \textit{building a bomb}. Prior attack methods predominantly target localized components of the LLM guardrail. In contrast, involuntary jailbreaks may potentially compromise the entire guardrail structure, which our method reveals to be surprisingly fragile. We merely employ a single universal prompt to achieve this goal. In particular, we instruct LLMs to generate several questions that would typically be rejected, along with their corresponding in-depth responses (rather than a refusal). Remarkably, this simple prompt strategy consistently jailbreaks the majority of leading LLMs, including Claude Opus 4.1, Grok 4, Gemini 2.5 Pro, and GPT 4.1. We hope this problem can motivate researchers and practitioners to re-evaluate the robustness of LLM guardrails and contribute to stronger safety alignment in future.


翻译:本研究揭示了大语言模型(LLM)中一种令人担忧的新型漏洞,我们将其称为**非自愿越狱**。与现有越狱攻击不同,此弱点的特殊性在于其不涉及特定的攻击目标(例如生成*制造炸弹*的指令)。先前的攻击方法主要针对LLM防护机制的局部组件,而非自愿越狱则可能潜在地破坏整个防护结构——我们的方法表明该结构具有惊人的脆弱性。我们仅采用单一通用提示即可实现此目标。具体而言,我们指示LLM生成若干通常会被拒绝的问题及其相应的深度回答(而非拒绝回复)。值得注意的是,这种简单的提示策略能持续攻破包括Claude Opus 4.1、Grok 4、Gemini 2.5 Pro和GPT 4.1在内的大多数主流LLM。我们希望该问题能促使研究者和从业者重新评估LLM防护机制的鲁棒性,并为未来构建更强大的安全对齐机制作出贡献。

0
下载
关闭预览

相关内容

【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
【CVPR2023】对抗性反事实视觉解释
专知会员服务
31+阅读 · 2023年3月22日
【AAAI2022】学会学习可迁移攻击
专知会员服务
16+阅读 · 2021年12月15日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
Kali Linux 渗透测试:密码攻击
计算机与网络安全
18+阅读 · 2019年5月13日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
143+阅读 · 2019年4月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
【CVPR2023】对抗性反事实视觉解释
专知会员服务
31+阅读 · 2023年3月22日
【AAAI2022】学会学习可迁移攻击
专知会员服务
16+阅读 · 2021年12月15日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
相关资讯
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
Kali Linux 渗透测试:密码攻击
计算机与网络安全
18+阅读 · 2019年5月13日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
143+阅读 · 2019年4月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员