In multimodal learning, CLIP has been recognized as the \textit{de facto} method for learning a shared latent space across multiple modalities, placing similar representations close to each other and moving them away from dissimilar ones. Although CLIP-based losses effectively align modalities at the semantic level, the resulting latent spaces often remain only partially shared, revealing a structural mismatch known as the modality gap. While the necessity of addressing this phenomenon remains debated, particularly given its limited impact on instance-wise tasks (e.g., retrieval), we prove that its influence is instead strongly pronounced in group-level tasks (e.g., clustering). To support this claim, we introduce a novel method designed to consistently reduce this discrepancy in two-modal settings, with a straightforward extension to the general $n$-modal case. Through our extensive evaluation, we demonstrate our novel insight: while reducing the gap provides only marginal or inconsistent improvements in traditional instance-wise tasks, it significantly enhances group-wise tasks. These findings may reshape our understanding of the modality gap, highlighting its key role in improving performance on tasks requiring semantic grouping.


翻译:在多模态学习中,CLIP已被公认为学习跨多模态共享潜在空间的\textit{事实标准}方法,它将相似的表示彼此靠近,并将不相似的表示推远。尽管基于CLIP的损失函数在语义层面有效地对齐了模态,但由此产生的潜在空间通常仅部分共享,揭示出一种被称为模态鸿沟的结构性失配。尽管解决这一现象的必要性仍存争议,特别是考虑到其对实例级任务(例如检索)影响有限,我们证明其影响反而在组级任务(例如聚类)中极为显著。为支持这一论断,我们引入了一种新方法,旨在双模态设置中持续减小这种差异,并可简单扩展至一般的$n$模态情形。通过广泛的评估,我们证明了这一新颖见解:虽然弥合鸿沟在传统的实例级任务中仅带来边际或不一致的改进,但它能显著提升分组任务的性能。这些发现可能重塑我们对模态鸿沟的理解,突显其在提升需要语义分组的任务性能中的关键作用。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员