Unified Multimodal Models (UMMs) offer powerful cross-modality capabilities but introduce new safety risks not observed in single-task models. Despite their emergence, existing safety benchmarks remain fragmented across tasks and modalities, limiting the comprehensive evaluation of complex system-level vulnerabilities. To address this gap, we introduce UniSAFE, the first comprehensive benchmark for system-level safety evaluation of UMMs across 7 I/O modality combinations, spanning conventional tasks and novel multimodal-context image generation settings. UniSAFE is built with a shared-target design that projects common risk scenarios across task-specific I/O configurations, enabling controlled cross-task comparisons of safety failures. Comprising 6,802 curated instances, we use UniSAFE to evaluate 15 state-of-the-art UMMs, both proprietary and open-source. Our results reveal critical vulnerabilities across current UMMs, including elevated safety violations in multi-image composition and multi-turn settings, with image-output tasks consistently more vulnerable than text-output tasks. These findings highlight the need for stronger system-level safety alignment for UMMs. Our code and data are publicly available at https://github.com/segyulee/UniSAFE


翻译:统一多模态模型(UMMs)虽具备强大的跨模态能力,但也带来了单任务模型中未曾观察到的新型安全风险。尽管此类模型已逐渐兴起,现有的安全基准仍分散于不同任务与模态之间,限制了对复杂系统级漏洞的全面评估。为填补这一空白,我们提出了UniSAFE——首个针对UMMs在7种输入/输出模态组合上进行系统级安全性评估的综合基准,涵盖传统任务与新颖的多模态上下文图像生成场景。UniSAFE采用共享目标设计,将共同的风险场景映射至特定任务的输入/输出配置中,从而实现对安全失效的跨任务可控比较。通过包含6,802个精选实例,我们利用UniSAFE评估了15个当前最先进的专有及开源UMMs。研究结果揭示了当前UMMs普遍存在的关键脆弱性,包括在多图像组合与多轮对话场景中安全违规率显著升高,且图像输出任务的安全性始终弱于文本输出任务。这些发现凸显了加强UMMs系统级安全对齐的迫切需求。我们的代码与数据已公开于https://github.com/segyulee/UniSAFE。

0
下载
关闭预览

相关内容

【CVPR2025教程】大规模多模态模型的评估:挑战与方法
专知会员服务
15+阅读 · 2025年6月13日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
大模型安全与对齐:复杂系统视角下的AI安全
专知会员服务
50+阅读 · 2024年1月2日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员