In multimodal representation learning, synergistic interactions between modalities not only provide complementary information but also create unique outcomes through specific interaction patterns that no single modality could achieve alone. Existing methods may struggle to effectively capture the full spectrum of synergistic information, leading to suboptimal performance in tasks where such interactions are critical. This is particularly problematic because synergistic information constitutes the fundamental value proposition of multimodal representation. To address this challenge, we introduce InfMasking, a contrastive synergistic information extraction method designed to enhance synergistic information through an Infinite Masking strategy. InfMasking stochastically occludes most features from each modality during fusion, preserving only partial information to create representations with varied synergistic patterns. Unmasked fused representations are then aligned with masked ones through mutual information maximization to encode comprehensive synergistic information. This infinite masking strategy enables capturing richer interactions by exposing the model to diverse partial modality combinations during training. As computing mutual information estimates with infinite masking is computationally prohibitive, we derive an InfMasking loss to approximate this calculation. Through controlled experiments, we demonstrate that InfMasking effectively enhances synergistic information between modalities. In evaluations on large-scale real-world datasets, InfMasking achieves state-of-the-art performance across seven benchmarks. Code is released at https://github.com/brightest66/InfMasking.


翻译:在多模态表征学习中,模态间的协同交互不仅提供互补信息,还通过特定交互模式产生任何单一模态无法独立实现的独特结果。现有方法可能难以有效捕捉完整的协同信息谱,导致在依赖此类交互的关键任务中出现次优性能。这一问题尤为突出,因为协同信息构成了多模态表征的根本价值主张。为应对这一挑战,我们提出InfMasking——一种基于对比学习的协同信息提取方法,通过无限掩码策略增强协同信息。InfMasking在融合过程中随机遮蔽每个模态的大部分特征,仅保留部分信息以创建具有多样化协同模式的表征。随后通过互信息最大化将未掩码的融合表征与掩码表征对齐,从而编码全面的协同信息。这种无限掩码策略通过在训练中向模型展示多样化的部分模态组合,实现了更丰富交互的捕捉。由于无限掩码下的互信息估计计算量过大,我们推导出InfMasking损失函数来近似该计算。通过受控实验,我们证明InfMasking能有效增强模态间的协同信息。在大规模现实数据集评估中,InfMasking在七个基准测试中均达到最先进性能。代码发布于https://github.com/brightest66/InfMasking。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月16日
VIP会员
相关VIP内容
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员