Unified Multimodal Models (UMMs) offer powerful cross-modality capabilities but introduce new safety risks not observed in single-task models. Despite their emergence, existing safety benchmarks remain fragmented across tasks and modalities, limiting the comprehensive evaluation of complex system-level vulnerabilities. To address this gap, we introduce UniSAFE, the first comprehensive benchmark for system-level safety evaluation of UMMs across 7 I/O modality combinations, spanning conventional tasks and novel multimodal-context image generation settings. UniSAFE is built with a shared-target design that projects common risk scenarios across task-specific I/O configurations, enabling controlled cross-task comparisons of safety failures. Comprising 6,802 curated instances, we use UniSAFE to evaluate 15 state-of-the-art UMMs, both proprietary and open-source. Our results reveal critical vulnerabilities across current UMMs, including elevated safety violations in multi-image composition and multi-turn settings, with image-output tasks consistently more vulnerable than text-output tasks. These findings highlight the need for stronger system-level safety alignment for UMMs. Our code and data are publicly available at https://github.com/segyulee/UniSAFE


翻译:统一多模态模型(UMMs)虽具备强大的跨模态能力,但也带来了单任务模型中未曾观察到的新型安全风险。尽管此类模型已逐渐兴起,现有的安全基准仍分散于不同任务与模态之间,限制了对复杂系统级漏洞的全面评估。为填补这一空白,我们提出了UniSAFE——首个针对UMMs在7种输入/输出模态组合上进行系统级安全性评估的综合基准,涵盖传统任务与新颖的多模态上下文图像生成场景。UniSAFE采用共享目标设计,将共同的风险场景映射至特定任务的输入/输出配置中,从而实现对安全失效的跨任务可控比较。通过包含6,802个精选实例,我们利用UniSAFE评估了15个当前最先进的专有及开源UMMs。研究结果揭示了当前UMMs普遍存在的关键脆弱性,包括在多图像组合与多轮对话场景中安全违规率显著升高,且图像输出任务的安全性始终弱于文本输出任务。这些发现凸显了加强UMMs系统级安全对齐的迫切需求。我们的代码与数据已公开于https://github.com/segyulee/UniSAFE。

0
下载
关闭预览

相关内容

【CVPR2025教程】大规模多模态模型的评估:挑战与方法
专知会员服务
15+阅读 · 2025年6月13日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
52+阅读 · 2024年1月2日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员