The rapid advancement of Multimodal Large Language Models (MLLMs) has introduced complex security challenges, particularly at the intersection of textual and visual safety. While existing schemes have explored the security vulnerabilities of MLLMs, the investigation into their visual safety boundaries remains insufficient. In this paper, we propose Beyond Visual Safety (BVS), a novel image-text pair jailbreaking framework specifically designed to probe the visual safety boundaries of MLLMs. BVS employs a "reconstruction-then-generation" strategy, leveraging neutralized visual splicing and inductive recomposition to decouple malicious intent from raw inputs, thereby leading MLLMs to be induced into generating harmful images. Experimental results demonstrate that BVS achieves a remarkable jailbreak success rate of 98.21\% against GPT-5 (12 January 2026 release). Our findings expose critical vulnerabilities in the visual safety alignment of current MLLMs.


翻译:多模态大语言模型的快速发展带来了复杂的安全挑战,尤其在文本与视觉安全的交叉领域尤为突出。尽管现有研究已探索了多模态大语言模型的安全漏洞,但对其视觉安全边界的考察仍显不足。本文提出"超越视觉安全"——一种专为探测多模态大语言模型视觉安全边界而设计的新型图文对越狱框架。该框架采用"重建-生成"策略,通过中性化视觉拼接与归纳重组技术,将恶意意图从原始输入中解耦,从而诱导多模态大语言模型生成有害图像。实验结果表明,本方法对GPT-5(2026年1月12日版本)的越狱成功率高达98.21%。我们的研究揭示了当前多模态大语言模型在视觉安全对齐方面存在的严重漏洞。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
21+阅读 · 2025年4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
87+阅读 · 2024年1月14日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
21+阅读 · 2025年4月28日
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
24+阅读 · 2025年2月16日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
87+阅读 · 2024年1月14日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员