AM$^3$Safety：面向多模态多轮安全性的数据高效对齐方法 (AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs) - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态 · 视觉问答 · 对齐 ·

AM$^3$Safety: Towards Data Efficient Alignment of Multi-modal Multi-turn Safety for MLLMs

翻译：AM$^3$Safety：面向多模态多轮安全性的数据高效对齐方法

Han Zhu,Jiale Chen,Chengkun Cai,Shengjie Sun,Haoran Li,Yujin Zhou,Chi-Min Chan,Pengcheng Wen,Lei Li,Sirui Han,Yike Guo

Multi-modal Large Language Models (MLLMs) are increasingly deployed in interactive applications. However, their safety vulnerabilities become pronounced in multi-turn multi-modal scenarios, where harmful intent can be gradually reconstructed across turns, and security protocols fade into oblivion as the conversation progresses. Existing Reinforcement Learning from Human Feedback (RLHF) alignment methods are largely developed for single-turn visual question-answer (VQA) task and often require costly manual preference annotations, limiting their effectiveness and scalability in dialogues. To address this challenge, we present InterSafe-V, an open-source multi-modal dialogue dataset containing 11,270 dialogues and 500 specially designed refusal VQA samples. This dataset, constructed through interaction between several models, is designed to more accurately reflect real-world scenarios and includes specialized VQA pairs tailored for specific domains. Building on this dataset, we propose AM$^3$Safety, a framework that combines a cold-start refusal phase with Group Relative Policy Optimization (GRPO) fine-tuning using turn-aware dual-objective rewards across entire dialogues. Experiments on Qwen2.5-VL-7B-Instruct and LLaVA-NeXT-7B show more than 10\% decrease in Attack Success Rate (ASR) together with an increment of at least 8\% in harmless dimension and over 13\% in helpful dimension of MLLMs on multi-modal multi-turn safety benchmarks, while preserving their general abilities.

翻译：多模态大语言模型（MLLMs）正越来越多地被部署于交互式应用中。然而，在多轮多模态场景下，其安全脆弱性变得尤为突出：有害意图可能在多轮对话中被逐步重构，且随着对话的推进，安全协议往往被遗忘。现有基于人类反馈的强化学习（RLHF）对齐方法主要针对单轮视觉问答（VQA）任务开发，通常需要昂贵的人工偏好标注，限制了其在对话场景中的有效性和可扩展性。为应对这一挑战，我们提出了InterSafe-V，一个开源的多模态对话数据集，包含11,270个对话和500个专门设计的拒答VQA样本。该数据集通过多个模型间的交互构建而成，旨在更准确地反映真实场景，并包含针对特定领域定制的VQA对。基于此数据集，我们提出了AM$^3$Safety框架，该框架结合了冷启动拒答阶段与基于全对话轮次感知双目标奖励的组相对策略优化（GRPO）微调。在Qwen2.5-VL-7B-Instruct和LLaVA-NeXT-7B上的实验表明，在多模态多轮安全基准测试中，模型的攻击成功率（ASR）降低了超过10%，同时在无害性维度上提升了至少8%，在帮助性维度上提升了超过13%，同时保持了其通用能力。

0

相关内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

23+阅读 · 1月18日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

Arxiv

0+阅读 · 2月4日

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

Arxiv

0+阅读 · 2月3日

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron

Arxiv

0+阅读 · 2月2日

Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models

Arxiv

0+阅读 · 1月30日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 1月21日

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Arxiv

0+阅读 · 1月20日

MTMCS-Bench: Evaluating Contextual Safety of Multimodal Large Language Models in Multi-Turn Dialogues

Arxiv

0+阅读 · 1月11日

When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life

Arxiv

0+阅读 · 1月7日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

相关VIP内容

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

关于 GPT-5.2、Gemini 3 Pro、Qwen3-VL、豆包 1.8、Grok 4.1 Fast、Nano Banana Pro 及 Seedream 4.5 的安全性研究报告

专知会员服务

23+阅读 · 1月18日

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

158页！天大等最新《大型语言模型安全：全面综述》

158页！天大等最新《大型语言模型安全：全面综述》

专知会员服务

49+阅读 · 2024年12月24日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

相关论文

Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

Arxiv

0+阅读 · 2月4日

CSR-Bench: A Benchmark for Evaluating the Cross-modal Safety and Reliability of MLLMs

Arxiv

0+阅读 · 2月3日

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron

Arxiv

0+阅读 · 2月2日

Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models

Arxiv

0+阅读 · 1月30日

Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models

Arxiv

0+阅读 · 1月22日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 1月21日

The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

Arxiv

0+阅读 · 1月20日

MTMCS-Bench: Evaluating Contextual Safety of Multimodal Large Language Models in Multi-Turn Dialogues

Arxiv

0+阅读 · 1月11日

When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life

Arxiv

0+阅读 · 1月7日

One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models

Arxiv

0+阅读 · 1月1日

相关基金

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员