In multimodal learning, CLIP has emerged as the de-facto approach for mapping different modalities into a shared latent space by bringing semantically similar representations closer while pushing apart dissimilar ones. However, CLIP-based contrastive losses exhibit unintended behaviors that negatively impact true semantic alignment, leading to sparse and fragmented latent spaces. This phenomenon, known as the modality gap, has been partially mitigated for standard text and image pairs but remains unknown and unresolved in more complex multimodal settings, such as the medical domain. In this work, we study this phenomenon in the latter case, revealing that the modality gap is present also in medical alignment, and we propose a modality-agnostic framework that closes this gap, ensuring that semantically related representations are more aligned, regardless of their source modality. Our method enhances alignment between radiology images and clinical text, improving cross-modal retrieval and image captioning.


翻译:在多模态学习中,CLIP已成为将不同模态映射到共享潜在空间的事实标准方法,其通过拉近语义相似的表征同时推远不相似的表征来实现这一目标。然而,基于CLIP的对比损失表现出一些非预期的行为,这些行为对真实的语义对齐产生负面影响,导致潜在空间稀疏且碎片化。这一现象被称为模态鸿沟,在标准的文本-图像对中已得到部分缓解,但在更复杂的多模态场景(如医学领域)中仍未被认知且未获解决。在本研究中,我们针对后一种情况探究了该现象,揭示了模态鸿沟同样存在于医学对齐任务中,并提出了一个与模态无关的框架来弥合这一鸿沟,确保语义相关的表征无论其源模态如何都能实现更紧密的对齐。我们的方法增强了放射学图像与临床文本之间的对齐,从而提升了跨模态检索与图像描述生成的性能。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
用于多模态对齐的基础模型表征潜力:一项综述
专知会员服务
18+阅读 · 2025年10月8日
《多模态对齐与融合》综述
专知会员服务
99+阅读 · 2024年11月27日
《多模态大模型少样本自适应》综述
专知会员服务
103+阅读 · 2024年1月4日
【CVPR2023】多模态表示学习中潜在模态结构的理解和构建
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月16日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员