Closing the gap in multimodal medical representation alignment - 专知论文

会员服务 ·

0

模态 · 对齐 · 多模 · 多模态 · 表征对齐 ·

Closing the gap in multimodal medical representation alignment

翻译：弥合多模态医学表征对齐中的鸿沟

Eleonora Grassucci,Giordano Cicchetti,Danilo Comminiello

from arxiv, Accepted at MLSP2025

In multimodal learning, CLIP has emerged as the de-facto approach for mapping different modalities into a shared latent space by bringing semantically similar representations closer while pushing apart dissimilar ones. However, CLIP-based contrastive losses exhibit unintended behaviors that negatively impact true semantic alignment, leading to sparse and fragmented latent spaces. This phenomenon, known as the modality gap, has been partially mitigated for standard text and image pairs but remains unknown and unresolved in more complex multimodal settings, such as the medical domain. In this work, we study this phenomenon in the latter case, revealing that the modality gap is present also in medical alignment, and we propose a modality-agnostic framework that closes this gap, ensuring that semantically related representations are more aligned, regardless of their source modality. Our method enhances alignment between radiology images and clinical text, improving cross-modal retrieval and image captioning.

翻译：在多模态学习中，CLIP已成为将不同模态映射到共享潜在空间的事实标准方法，其通过拉近语义相似的表征同时推远不相似的表征来实现这一目标。然而，基于CLIP的对比损失表现出一些非预期的行为，这些行为对真实的语义对齐产生负面影响，导致潜在空间稀疏且碎片化。这一现象被称为模态鸿沟，在标准的文本-图像对中已得到部分缓解，但在更复杂的多模态场景（如医学领域）中仍未被认知且未获解决。在本研究中，我们针对后一种情况探究了该现象，揭示了模态鸿沟同样存在于医学对齐任务中，并提出了一个与模态无关的框架来弥合这一鸿沟，确保语义相关的表征无论其源模态如何都能实现更紧密的对齐。我们的方法增强了放射学图像与临床文本之间的对齐，从而提升了跨模态检索与图像描述生成的性能。

0

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

33+阅读 · 2025年10月9日

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

21+阅读 · 2024年4月28日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

专知会员服务

35+阅读 · 2023年3月14日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

Multi-Modal Learning meets Genetic Programming: Analyzing Alignment in Latent Space Optimization

Arxiv

0+阅读 · 4月13日

Hierarchical Contrastive Learning for Multimodal Data

Arxiv

0+阅读 · 4月7日

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Arxiv

0+阅读 · 3月25日

On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings

Arxiv

0+阅读 · 3月20日

Principled Multimodal Representation Learning

Arxiv

0+阅读 · 3月20日

Is CLIP ideal? No. Can we fix it? Yes!

Arxiv

0+阅读 · 3月16日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

Arxiv

17+阅读 · 2023年11月10日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

6+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

33+阅读 · 2025年10月9日

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

【CVPR2025】用于视觉-语言基础模型模态对齐的后预训练方法

专知会员服务

15+阅读 · 2025年4月18日

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

【ICLR2025】为多模态图像-文本表示可解释性缩小信息瓶颈理论

专知会员服务

15+阅读 · 2025年2月24日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

【CVPR2024】AMU-Tuning：基于CLIP的少样本学习中的有效对数偏差

专知会员服务

21+阅读 · 2024年4月28日

《多模态大模型少样本自适应》综述

《多模态大模型少样本自适应》综述

专知会员服务

103+阅读 · 2024年1月4日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

【CVPR2023】多模态表示学习中潜在模态结构的理解和构建

专知会员服务

35+阅读 · 2023年3月14日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

Closing the Modality Reasoning Gap for Speech Large Language Models

Arxiv

0+阅读 · 4月20日

Multi-Modal Learning meets Genetic Programming: Analyzing Alignment in Latent Space Optimization

Arxiv

0+阅读 · 4月13日

Hierarchical Contrastive Learning for Multimodal Data

Arxiv

0+阅读 · 4月7日

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Arxiv

0+阅读 · 3月25日

On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings

Arxiv

0+阅读 · 3月20日

Principled Multimodal Representation Learning

Arxiv

0+阅读 · 3月20日

Is CLIP ideal? No. Can we fix it? Yes!

Arxiv

0+阅读 · 3月16日

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Arxiv

0+阅读 · 2月25日

How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model

Arxiv

17+阅读 · 2023年11月10日

Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning

Arxiv

11+阅读 · 2023年3月10日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神分裂症的多尺度动态功能连接研究

国家自然科学基金

3+阅读 · 2015年12月31日

“数据-知识”驱动的大区域高分辨率遥感影像多尺度分割并行计算方法

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

在多尺度系统中具有稳定性交替的空间对照结构研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员