Comprehensive language-image pre-training for 3D medical image understanding - 专知论文

会员服务 ·

0

预训练 · 医学图像 · 分割 · 报告生成 · 图像理解 ·

Comprehensive language-image pre-training for 3D medical image understanding

翻译：面向三维医学图像理解的综合语言-图像预训练

Tassilo Wald,Ibrahim Ethem Hamamci,Yuan Gao,Sam Bond-Taylor,Harshita Sharma,Maximilian Ilse,Cynthia Lo,Olesya Melnichenko,Anton Schwaighofer,Noel C. F. Codella,Maria Teodora Wetscherek,Klaus H. Maier-Hein,Panagiotis Korfiatis,Valentina Salvatelli,Javier Alvarez-Valle,Fernando Pérez-García

Vision-language pre-training, i.e., aligning images with paired text, is a powerful paradigm to create encoders that can be directly used for tasks such as classification, retrieval, and segmentation. In the 3D medical image domain, these capabilities allow vision-language encoders (VLEs) to support radiologists by retrieving patients with similar abnormalities, predicting likelihoods of abnormality, or, with downstream adaptation, generating radiological reports. While the methodology holds promise, data availability and domain-specific hurdles limit the capabilities of current 3D VLEs. In this paper, we overcome these challenges by injecting additional supervision via a report generation objective and combining vision-language with vision-only pre-training. This allows us to leverage both image-only and paired image-text 3D datasets, increasing the total amount of data to which our model is exposed. Through these additional objectives, paired with best practices of the 3D medical imaging domain, we develop the Comprehensive Language-Image Pre-training (COLIPRI) encoder family. Our COLIPRI encoders achieve state-of-the-art performance in report generation, semantic segmentation, classification probing, and zero-shot classification. The model is available at https://huggingface.co/microsoft/colipri.

翻译：视觉-语言预训练（即对齐图像与配对文本）是一种强大的范式，可用于创建能直接应用于分类、检索和分割等任务的编码器。在三维医学图像领域，这些能力使得视觉-语言编码器能够通过检索具有相似异常的患者、预测异常可能性，或通过下游适配生成放射学报告来辅助放射科医师。尽管该方法前景广阔，但数据可用性和领域特定障碍限制了当前三维视觉-语言编码器的能力。本文通过引入报告生成目标的额外监督，并将视觉-语言预训练与纯视觉预训练相结合，克服了这些挑战。这使得我们能够同时利用纯图像数据集和配对图像-文本三维数据集，从而增加模型接触的数据总量。通过这些附加目标，并结合三维医学成像领域的最佳实践，我们开发了综合语言-图像预训练编码器系列。我们的COLIPRI编码器在报告生成、语义分割、分类探测和零样本分类任务中均取得了最先进的性能。模型发布于https://huggingface.co/microsoft/colipri。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

专知会员服务

13+阅读 · 2024年7月10日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

曼彻斯特大学、Mila等 | 生物医学领域的预训练语言模型：系统综述

专知会员服务

20+阅读 · 2021年10月18日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

最全综述 | 医学图像处理

最全综述 | 医学图像处理

计算机视觉life

57+阅读 · 2019年6月15日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像的植物种类识别与植物三维建模

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Vision-Language Controlled Deep Unfolding for Joint Medical Image Restoration and Segmentation

Arxiv

0+阅读 · 1月30日

Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding

Arxiv

0+阅读 · 1月30日

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

Arxiv

0+阅读 · 1月29日

Visual Instruction Pretraining for Domain-Specific Foundation Models

Arxiv

0+阅读 · 1月28日

Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments

Arxiv

0+阅读 · 1月22日

PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis

Arxiv

0+阅读 · 1月16日

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Arxiv

0+阅读 · 1月15日

CLIMP: Contrastive Language-Image Mamba Pretraining

Arxiv

0+阅读 · 1月11日

Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

用于三维医学影像理解的综合语言–图像预训练

用于三维医学影像理解的综合语言–图像预训练

专知会员服务

7+阅读 · 2025年11月5日

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

专知会员服务

13+阅读 · 2024年7月10日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

专知会员服务

48+阅读 · 2022年10月18日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

曼彻斯特大学、Mila等 | 生物医学领域的预训练语言模型：系统综述

专知会员服务

20+阅读 · 2021年10月18日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

最全综述 | 医学图像处理

最全综述 | 医学图像处理

计算机视觉life

57+阅读 · 2019年6月15日

深度学习与医学图像分析

深度学习与医学图像分析

人工智能前沿讲习班

40+阅读 · 2019年6月8日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

相关论文

Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

Arxiv

0+阅读 · 2月2日

Vision-Language Controlled Deep Unfolding for Joint Medical Image Restoration and Segmentation

Arxiv

0+阅读 · 1月30日

Bi-MCQ: Reformulating Vision-Language Alignment for Negation Understanding

Arxiv

0+阅读 · 1月30日

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

Arxiv

0+阅读 · 1月29日

Visual Instruction Pretraining for Domain-Specific Foundation Models

Arxiv

0+阅读 · 1月28日

Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments

Arxiv

0+阅读 · 1月22日

PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis

Arxiv

0+阅读 · 1月16日

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Arxiv

0+阅读 · 1月15日

CLIMP: Contrastive Language-Image Mamba Pretraining

Arxiv

0+阅读 · 1月11日

Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

Arxiv

0+阅读 · 1月7日

相关基金

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像的植物种类识别与植物三维建模

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

非约束环境下的人脸图像预处理计算模型与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员