Multimodal representation learning aims to construct a shared embedding space in which heterogeneous modalities are semantically aligned. Despite strong empirical results, InfoNCE-based objectives introduce inherent conflicts that yield distribution gaps across modalities. In this work, we identify two conflicts in the multimodal regime, both exacerbated as the number of modalities increases: (i) an alignment-uniformity conflict, whereby the repulsion of uniformity undermines pairwise alignment, and (ii) an intra-alignment conflict, where aligning multiple modalities induces competing alignment directions. To address these issues, we propose a principled decoupling of alignment and uniformity for multimodal representations, providing a conflict-free recipe for multimodal learning that simultaneously supports discriminative and generative use cases without task-specific modules. We then provide a theoretical guarantee that our method acts as an efficient proxy for a global Hölder divergence over multiple modality distributions, and thus reduces the distribution gap among modalities. Extensive experiments on retrieval and UnCLIP-style generation demonstrate consistent gains.


翻译:多模态表征学习旨在构建一个共享嵌入空间,使异构模态在语义上对齐。尽管基于InfoNCE的目标函数取得了显著的实证效果,但其引入的内在冲突会导致模态间产生分布差异。本文中,我们识别出多模态体系中的两种冲突,且两者均随模态数量增加而加剧:(i) 对齐-一致性冲突,即一致性排斥力会削弱成对对齐效果;(ii) 内部对齐冲突,即对齐多个模态会引发竞争性的对齐方向。为解决这些问题,我们提出一种多模态表征中对齐性与一致性的解耦方法,为多模态学习提供无冲突的解决方案,该方法无需任务特定模块即可同时支持判别式与生成式应用场景。我们进一步从理论上证明,该方法可作为多模态分布间全局Hölder散度的有效代理,从而减少模态间的分布差异。在检索任务和UnCLIP式生成任务上的大量实验均显示出持续的性能提升。

0
下载
关闭预览

相关内容

用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
专知会员服务
235+阅读 · 2020年5月6日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
相关VIP内容
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
专知会员服务
235+阅读 · 2020年5月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员