Robust safety of vision-language large models (VLLMs) under joint multilingual and multimodal inputs remains underexplored. Existing benchmarks are typically multilingual but text-only, or multimodal but monolingual. Recent multilingual multimodal red-teaming efforts render harmful prompts into images, yet rely heavily on typography-style visuals and lack semantically grounded image-text pairs, limiting coverage of realistic cross-modal interactions. We introduce Lingua-SafetyBench, a benchmark of 100,440 harmful image-text pairs across 10 languages, explicitly partitioned into image-dominant and text-dominant subsets to disentangle risk sources. Evaluating 11 open-source VLLMs reveals a consistent asymmetry: image-dominant risks yield higher ASR in high-resource languages, while text-dominant risks are more severe in non-high-resource languages. A controlled study on the Qwen series shows that scaling and version upgrades reduce Attack Success Rate (ASR) overall but disproportionately benefit HRLs, widening the gap between HRLs and Non-HRLs under text-dominant risks. This underscores the necessity of language- and modality-aware safety alignment beyond mere scaling.To facilitate reproducibility and future research, we will publicly release our benchmark, model checkpoints, and source code.The code and dataset will be available at https://github.com/zsxr15/Lingua-SafetyBench.Warning: this paper contains examples with unsafe content.


翻译:在多语言与多模态联合输入下,视觉-语言大模型(VLLMs)的鲁棒安全性研究仍显不足。现有基准通常仅支持多语言但限于纯文本,或支持多模态但仅限于单语言。近期的多语言多模态红队测试尝试将有害提示渲染为图像,但严重依赖排版式视觉内容,且缺乏语义关联的图像-文本对,限制了现实跨模态交互的覆盖范围。我们提出了Lingua-SafetyBench,这是一个包含10种语言、总计100,440个有害图像-文本对的基准数据集,并明确划分为图像主导与文本主导子集以分离风险来源。对11个开源VLLMs的评估揭示了一种持续的不对称性:图像主导风险在高资源语言中产生更高的攻击成功率(ASR),而文本主导风险在非高资源语言中更为严重。针对Qwen系列的对照研究表明,模型规模扩展与版本升级虽能整体降低攻击成功率(ASR),但高资源语言获益不成比例,导致在文本主导风险下高资源语言与非高资源语言之间的安全差距进一步扩大。这凸显了超越单纯规模扩展、进行语言与模态感知的安全对齐的必要性。为促进可复现性与未来研究,我们将公开本基准、模型检查点及源代码。代码与数据集可通过 https://github.com/zsxr15/Lingua-SafetyBench 获取。警告:本文包含不安全内容的示例。

0
下载
关闭预览

相关内容

大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员