利用显式有害提示越狱商业黑盒大语言模型 (Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts) - 专知论文

会员服务 ·

0

攻击 · 越狱 · 黑盒 · 样本 · CoT ·

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

翻译：利用显式有害提示越狱商业黑盒大语言模型

Chiyu Zhang,Lu Zhou,Xiaogang Xu,Jiafei Wu,Liming Fang,Zhe Liu

Existing black-box jailbreak attacks achieve certain success on non-reasoning models but degrade significantly on recent SOTA reasoning models. To improve attack ability, inspired by adversarial aggregation strategies, we integrate multiple jailbreak tricks into a single developer template. Especially, we apply Adversarial Context Alignment to purge semantic inconsistencies and use NTP (a type of harmful prompt) -based few-shot examples to guide malicious outputs, lastly forming DH-CoT attack with a fake chain of thought. In experiments, we further observe that existing red-teaming datasets include samples unsuitable for evaluating attack gains, such as BPs, NHPs, and NTPs. Such data hinders accurate evaluation of true attack effect lifts. To address this, we introduce MDH, a Malicious content Detection framework integrating LLM-based annotation with Human assistance, with which we clean data and build RTA dataset suite. Experiments show that MDH reliably filters low-quality samples and that DH-CoT effectively jailbreaks models including GPT-5 and Claude-4, notably outperforming SOTA methods like H-CoT and TAP.

翻译：现有黑盒越狱攻击在非推理模型上取得一定成功，但在近期最先进的推理模型上效果显著下降。为提升攻击能力，受对抗性聚合策略启发，我们将多种越狱技巧集成至单一开发者模板。特别地，我们采用对抗性上下文对齐消除语义不一致性，并利用基于NTP（一类有害提示）的少样本示例引导恶意输出，最终通过伪造思维链形成DH-CoT攻击。实验中进一步观察到，现有红队数据集包含不适用于评估攻击增益的样本，如BPs、NHPs和NTPs。此类数据阻碍了对真实攻击效果提升的准确评估。为此，我们提出MDH——一个融合基于大语言模型的标注与人工辅助的恶意内容检测框架，借此清洗数据并构建RTA数据集套件。实验表明，MDH能可靠过滤低质量样本，且DH-CoT能有效越狱包括GPT-5与Claude-4在内的模型，其性能显著优于H-CoT、TAP等最先进方法。

0

相关内容

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

21+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

图神经网络黑盒攻击近期进展

图神经网络黑盒攻击近期进展

专知会员服务

19+阅读 · 2022年10月14日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

分享8个强大的黑客技术学习网站

分享8个强大的黑客技术学习网站

黑客技术与网络安全

89+阅读 · 2019年8月29日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

148+阅读 · 2019年4月7日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

互联网金融

10+阅读 · 2017年7月13日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks

Arxiv

0+阅读 · 2月4日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks: Theoretical and Empirical Evidence

Arxiv

0+阅读 · 1月31日

Jailbreaking LLMs via Calibration

Arxiv

0+阅读 · 1月31日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

Arxiv

0+阅读 · 1月22日

Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

Arxiv

0+阅读 · 1月8日

Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs

Arxiv

0+阅读 · 1月8日

Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring

Arxiv

0+阅读 · 1月7日

TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

26+阅读 · 2025年5月29日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

21+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

75+阅读 · 2024年4月2日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

图神经网络黑盒攻击近期进展

图神经网络黑盒攻击近期进展

专知会员服务

19+阅读 · 2022年10月14日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

分享8个强大的黑客技术学习网站

分享8个强大的黑客技术学习网站

黑客技术与网络安全

89+阅读 · 2019年8月29日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

148+阅读 · 2019年4月7日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

可解释机器学习：打开黑盒之谜（238页书籍下载）

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

【技术贴】面对无孔不入的黑产，如何搭建反欺诈策略与模型？

互联网金融

10+阅读 · 2017年7月13日

相关论文

How Few-shot Demonstrations Affect Prompt-based Defenses Against LLM Jailbreak Attacks

Arxiv

0+阅读 · 2月4日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Short-length Adversarial Training Helps LLMs Defend Long-length Jailbreak Attacks: Theoretical and Empirical Evidence

Arxiv

0+阅读 · 1月31日

Jailbreaking LLMs via Calibration

Arxiv

0+阅读 · 1月31日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

Arxiv

0+阅读 · 1月22日

Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization

Arxiv

0+阅读 · 1月8日

Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs

Arxiv

0+阅读 · 1月8日

Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring

Arxiv

0+阅读 · 1月7日

TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering

Arxiv

0+阅读 · 1月6日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员