Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization - 专知论文

会员服务 ·

0

模态 · 泛化 · 蒸馏 · 多模 · 协同 ·

Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization

翻译：模态均衡协同蒸馏用于多模态域泛化

Xiaohan Wang,Zhangtao Cheng,Ting Zhong,Leiting Chen,Fan Zhou

Weight Averaging (WA) has emerged as a powerful technique for enhancing generalization by promoting convergence to a flat loss landscape, which correlates with stronger out-of-distribution performance. However, applying WA directly to multi-modal domain generalization (MMDG) is challenging: differences in optimization speed across modalities lead WA to overfit to faster-converging ones in early stages, suppressing the contribution of slower yet complementary modalities, thereby hindering effective modality fusion and skewing the loss surface toward sharper, less generalizable minima. To address this issue, we propose MBCD, a unified collaborative distillation framework that retains WA's flatness-inducing advantages while overcoming its shortcomings in multi-modal contexts. MBCD begins with adaptive modality dropout in the student model to curb early-stage bias toward dominant modalities. A gradient consistency constraint then aligns learning signals between uni-modal branches and the fused representation, encouraging coordinated and smoother optimization. Finally, a WA-based teacher conducts cross-modal distillation by transferring fused knowledge to each uni-modal branch, which strengthens cross-modal interactions and steer convergence toward flatter solutions. Extensive experiments on MMDG benchmarks show that MBCD consistently outperforms existing methods, achieving superior accuracy and robustness across diverse unseen domains.

翻译：权重平均(WA)已成为一种通过促进收敛至平坦损失景观来增强泛化能力的强大技术，这与更强的分布外性能相关。然而，将WA直接应用于多模态域泛化(MMDG)具有挑战性：不同模态间优化速度的差异导致WA在早期阶段过拟合于收敛更快的模态，抑制了收敛较慢但具有互补性模态的贡献，从而阻碍有效的模态融合并使损失曲面偏向更尖锐、泛化能力更差的极小值。为解决此问题，我们提出MBCD，一个统一的协同蒸馏框架，该框架保留了WA诱导平坦性的优势，同时克服了其在多模态场景中的缺陷。MBCD首先在学生模型中进行自适应模态丢弃，以抑制早期对主导模态的偏向。随后，一个梯度一致性约束对齐了单模态分支与融合表示之间的学习信号，鼓励协调且更平滑的优化。最后，一个基于WA的教师模型通过将融合知识迁移至每个单模态分支来进行跨模态蒸馏，这强化了跨模态交互并引导收敛朝向更平坦的解。在MMDG基准上的大量实验表明，MBCD始终优于现有方法，在多种未见域上实现了更优的准确性和鲁棒性。

0

相关内容

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

专知会员服务

11+阅读 · 2025年5月24日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

43+阅读 · 2025年2月28日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《多模态适应与泛化》进展综述：从传统方法到基础模型

《多模态适应与泛化》进展综述：从传统方法到基础模型

专知会员服务

30+阅读 · 2025年1月31日

多模态知识图谱构建技术及其在军事领域的应用综述

多模态知识图谱构建技术及其在军事领域的应用综述

专知会员服务

45+阅读 · 2024年12月6日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【KDD2023】对领域泛化的异质性进行定量度量和对比分析

【KDD2023】对领域泛化的异质性进行定量度量和对比分析

专知会员服务

24+阅读 · 2023年5月29日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

用于目标定位的全局平均池化

用于目标定位的全局平均池化

论智

22+阅读 · 2018年8月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

基于统计均匀化技术的多层结构界面脱粘热力耦合研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多电平冗余工作特性的IGBT功率模块在线健康状态监测

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

高精度常平均曲率曲面建模理论与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏互质阵列的DOA估计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Arxiv

0+阅读 · 2月15日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models

Arxiv

0+阅读 · 2月11日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

Arxiv

0+阅读 · 2月3日

Controlled disagreement improves generalization in decentralized training

Arxiv

0+阅读 · 2月2日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

Multi-party Purity Distillation and Instrument Simulation in the One-Shot Regime

Arxiv

0+阅读 · 1月30日

Negatives-Dominant Contrastive Learning for Generalization in Imbalanced Domains

Arxiv

0+阅读 · 1月29日

Balanced Diffusion-Guided Fusion for Multimodal Remote Sensing Classification

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

3+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

5+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

3+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

2+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

【CMU博士论文】深度平衡模型与扩散模型的实践应用：提升效率的方法

专知会员服务

11+阅读 · 2025年5月24日

多模态基础模型的机制可解释性综述

多模态基础模型的机制可解释性综述

专知会员服务

43+阅读 · 2025年2月28日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《多模态适应与泛化》进展综述：从传统方法到基础模型

《多模态适应与泛化》进展综述：从传统方法到基础模型

专知会员服务

30+阅读 · 2025年1月31日

多模态知识图谱构建技术及其在军事领域的应用综述

多模态知识图谱构建技术及其在军事领域的应用综述

专知会员服务

45+阅读 · 2024年12月6日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

【KDD2023】对领域泛化的异质性进行定量度量和对比分析

【KDD2023】对领域泛化的异质性进行定量度量和对比分析

专知会员服务

24+阅读 · 2023年5月29日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

机器学习模型如何泛化到未知领域？微软亚研「领域泛化 (Domain Generalization)」综述论文概述理论、算法等

专知会员服务

59+阅读 · 2021年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

详解ORB-SLAM2中的特征均匀提取策略

详解ORB-SLAM2中的特征均匀提取策略

计算机视觉life

11+阅读 · 2019年10月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

用于目标定位的全局平均池化

用于目标定位的全局平均池化

论智

22+阅读 · 2018年8月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Arxiv

0+阅读 · 2月15日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models

Arxiv

0+阅读 · 2月11日

Quantifying Multimodal Imbalance: A GMM-Guided Adaptive Loss for Audio-Visual Learning

Arxiv

0+阅读 · 2月10日

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

Arxiv

0+阅读 · 2月3日

Controlled disagreement improves generalization in decentralized training

Arxiv

0+阅读 · 2月2日

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Arxiv

0+阅读 · 2月2日

Multi-party Purity Distillation and Instrument Simulation in the One-Shot Regime

Arxiv

0+阅读 · 1月30日

Negatives-Dominant Contrastive Learning for Generalization in Imbalanced Domains

Arxiv

0+阅读 · 1月29日

Balanced Diffusion-Guided Fusion for Multimodal Remote Sensing Classification

Arxiv

0+阅读 · 1月20日

相关基金

基于统计均匀化技术的多层结构界面脱粘热力耦合研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于多电平冗余工作特性的IGBT功率模块在线健康状态监测

国家自然科学基金

0+阅读 · 2015年12月31日

低差分均匀度密码函数的构造与分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于广义输出调节的非线性多个体系统的协调控制与优化

国家自然科学基金

1+阅读 · 2015年12月31日

高精度常平均曲率曲面建模理论与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏互质阵列的DOA估计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员