Disclaimer: Samples in this paper may be harmful and cause discomfort. Multimodal large language models (MLLMs) enable multimodal generation but inherit toxic, biased, and NSFW signals from weakly curated pretraining corpora, causing safety risks, especially under adversarial triggers that late, opaque training-free detoxification methods struggle to handle. We propose SGM, a white-box neuron-level multimodal intervention that acts like safety glasses for toxic neurons: it selectively recalibrates a small set of toxic expert neurons via expertise-weighted soft suppression, neutralizing harmful cross-modal activations without any parameter updates. We establish MM-TOXIC-QA, a multimodal toxicity evaluation framework, and compare SGM with existing detoxification techniques. Experiments on open-source MLLMs show that SGM mitigates toxicity in standard and adversarial conditions, cutting harmful rates from 48.2\% to 2.5\% while preserving fluency and multimodal reasoning. SGM is extensible, and its combined defenses, denoted as SGM*, integrate with existing detoxification methods for stronger safety performance, providing an interpretable, low-cost solution for toxicity-controlled multimodal generation.


翻译:免责声明:本文中的示例可能具有危害性并引起不适。多模态大语言模型(MLLMs)能够实现多模态生成,但从弱监管的预训练语料库中继承了有毒、偏见及NSFW信号,这带来了安全风险,尤其在对抗性触发条件下,后期不透明的免训练去毒方法难以有效应对。我们提出SGM,一种白盒神经元级多模态干预方法,其作用类似于为有毒神经元配备安全护目镜:该方法通过专业度加权的软抑制,选择性地重新校准一小部分有毒专家神经元,从而在不更新任何参数的情况下中和有害的跨模态激活。我们建立了MM-TOXIC-QA多模态毒性评估框架,并将SGM与现有去毒技术进行比较。在开源MLLMs上的实验表明,SGM在标准及对抗性条件下均能有效缓解毒性,将有害率从48.2%降至2.5%,同时保持流畅性和多模态推理能力。SGM具有良好的可扩展性,其组合防御版本(记为SGM*)可与现有去毒方法集成以实现更强的安全性能,为毒性可控的多模态生成提供了一种可解释、低成本的解决方案。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
生成式人工智能大型语言模型的安全性:概述
专知会员服务
35+阅读 · 2024年7月30日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
《多模态大型语言模型进化》最新综述
专知会员服务
105+阅读 · 2024年2月23日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员