Multimodal representation learning seeks to create a unified representation space by integrating diverse data modalities to improve multimodal understanding. Traditional methods often depend on pairwise contrastive learning, which relies on a predefined anchor modality, restricting alignment across all modalities. Recent advances have investigated the simultaneous alignment of multiple modalities, yet several challenges remain, such as limitations imposed by fixed anchor points and instability arising from optimizing the product of singular values. To address the challenges, in this paper, we propose Principled Multimodal Representation Learning (PMRL), a novel framework that achieves simultaneous alignment of multiple modalities without anchor dependency in a more stable manner. Specifically, grounded in the theoretical insight that full alignment corresponds to a rank-1 Gram matrix, PMRL optimizes the dominant singular value of the representation matrix to align modalities along a shared leading direction. We propose a softmax-based loss function that treats singular values as logits to prioritize the largest singular value. Besides, instance-wise contrastive regularization on the leading eigenvectors maintains inter-instance separability and prevents representation collapse. Extensive experiments across diverse tasks demonstrate PMRL's superiority compared to baseline methods. Source code can be found in https://github.com/Xiaohao-Liu/PMRL.


翻译:多模态表示学习旨在通过整合不同类型的数据模态来创建统一的表示空间,以提升多模态理解能力。传统方法通常依赖于成对对比学习,这需要预定义的锚定模态,从而限制了所有模态之间的对齐。近期研究探索了同时对多种模态进行对齐,但仍存在若干挑战,例如固定锚点的局限性以及优化奇异值乘积导致的不稳定性。为解决这些问题,本文提出了一种新型框架——原则性多模态表示学习(PMRL),该框架能在无需锚点依赖的情况下,以更稳定的方式实现多模态的同步对齐。具体而言,基于"完全对齐对应秩为1的Gram矩阵"这一理论洞见,PMRL通过优化表示矩阵的主奇异值,使各模态沿共享主导方向对齐。我们提出了一种基于softmax的损失函数,将奇异值视为logit以优先优化最大奇异值。此外,在主特征向量上施加实例级对比正则化,可保持实例间可分离性并防止表示坍缩。在多项任务上的大量实验表明,PMRL相较于基线方法具有显著优越性。源代码可在https://github.com/Xiaohao-Liu/PMRL获取。

0
下载
关闭预览

相关内容

多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
专知会员服务
236+阅读 · 2020年5月6日
多模态深度学习综述,18页pdf
专知会员服务
220+阅读 · 2020年3月29日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月26日
VIP会员
相关主题
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
多模态知识图谱表示学习综述
专知会员服务
72+阅读 · 2024年7月4日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
专知会员服务
186+阅读 · 2020年6月21日
专知会员服务
236+阅读 · 2020年5月6日
多模态深度学习综述,18页pdf
专知会员服务
220+阅读 · 2020年3月29日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员