Weight Averaging (WA) has emerged as a powerful technique for enhancing generalization by promoting convergence to a flat loss landscape, which correlates with stronger out-of-distribution performance. However, applying WA directly to multi-modal domain generalization (MMDG) is challenging: differences in optimization speed across modalities lead WA to overfit to faster-converging ones in early stages, suppressing the contribution of slower yet complementary modalities, thereby hindering effective modality fusion and skewing the loss surface toward sharper, less generalizable minima. To address this issue, we propose MBCD, a unified collaborative distillation framework that retains WA's flatness-inducing advantages while overcoming its shortcomings in multi-modal contexts. MBCD begins with adaptive modality dropout in the student model to curb early-stage bias toward dominant modalities. A gradient consistency constraint then aligns learning signals between uni-modal branches and the fused representation, encouraging coordinated and smoother optimization. Finally, a WA-based teacher conducts cross-modal distillation by transferring fused knowledge to each uni-modal branch, which strengthens cross-modal interactions and steer convergence toward flatter solutions. Extensive experiments on MMDG benchmarks show that MBCD consistently outperforms existing methods, achieving superior accuracy and robustness across diverse unseen domains.


翻译:权重平均(WA)已成为一种通过促进收敛至平坦损失景观来增强泛化能力的强大技术,这与更强的分布外性能相关。然而,将WA直接应用于多模态域泛化(MMDG)具有挑战性:不同模态间优化速度的差异导致WA在早期阶段过拟合于收敛更快的模态,抑制了收敛较慢但具有互补性模态的贡献,从而阻碍有效的模态融合并使损失曲面偏向更尖锐、泛化能力更差的极小值。为解决此问题,我们提出MBCD,一个统一的协同蒸馏框架,该框架保留了WA诱导平坦性的优势,同时克服了其在多模态场景中的缺陷。MBCD首先在学生模型中进行自适应模态丢弃,以抑制早期对主导模态的偏向。随后,一个梯度一致性约束对齐了单模态分支与融合表示之间的学习信号,鼓励协调且更平滑的优化。最后,一个基于WA的教师模型通过将融合知识迁移至每个单模态分支来进行跨模态蒸馏,这强化了跨模态交互并引导收敛朝向更平坦的解。在MMDG基准上的大量实验表明,MBCD始终优于现有方法,在多种未见域上实现了更优的准确性和鲁棒性。

0
下载
关闭预览

相关内容

多模态基础模型的机制可解释性综述
专知会员服务
43+阅读 · 2025年2月28日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
《多模态适应与泛化》进展综述:从传统方法到基础模型
多模态知识图谱构建技术及其在军事领域的应用综述
专知会员服务
44+阅读 · 2024年12月6日
【KDD2023】对领域泛化的异质性进行定量度量和对比分析
专知会员服务
24+阅读 · 2023年5月29日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
用于目标定位的全局平均池化
论智
22+阅读 · 2018年8月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员