RGB-Infrared (RGB-IR) multimodal perception is fundamental to embodied multimedia systems operating in complex physical environments. Although recent cross-modal fusion methods have advanced RGB-IR detection, the optimization dynamics caused by asymmetric modality characteristics remain underexplored. In practice, disparities in information density and feature quality introduce persistent optimization bias, leading training to overemphasize a dominant modality and hindering effective fusion. To quantify this phenomenon, we propose the Modality Dominance Index (MDI), which measures modality dominance by jointly modeling feature entropy and gradient contribution. Based on MDI, we develop a Modality Dominance-Aware Cross-modal Learning (MDACL) framework that regulates cross-modal optimization. MDACL incorporates Hierarchical Cross-modal Guidance (HCG) to enhance feature alignment and Adversarial Equilibrium Regularization (AER) to balance optimization dynamics during fusion. Extensive experiments on three RGB-IR benchmarks demonstrate that MDACL effectively mitigates optimization bias and achieves SOTA performance.


翻译:RGB-红外(RGB-IR)多模态感知是在复杂物理环境中运行的具身多媒体系统的基础。尽管近期的跨模态融合方法已推进了RGB-IR检测的发展,但由非对称模态特性引起的优化动态仍未得到充分探索。实际上,信息密度与特征质量的差异会引入持续的优化偏差,导致训练过度强调主导模态并阻碍有效融合。为量化这一现象,我们提出了模态主导指数(MDI),该指数通过联合建模特征熵与梯度贡献来度量模态主导性。基于MDI,我们开发了一种模态主导感知的跨模态学习(MDACL)框架,以调控跨模态优化过程。MDACL整合了分层跨模态引导(HCG)以增强特征对齐,并采用对抗均衡正则化(AER)以平衡融合过程中的优化动态。在三个RGB-IR基准数据集上的大量实验表明,MDACL能有效缓解优化偏差并实现最先进的性能。

0
下载
关闭预览

相关内容

AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员