The scalability of current language-image pre-training for 3D medical imaging, such as CT and MRI, is constrained by the need for radiologists to manually curate raw clinical studies. In this work, we pioneer pre-training directly on uncurated studies, which both aligns more closely with the radiologist's workflow and provides a natural path to scalability. However, the unique structure of such data presents new challenges for existing model architectures, which were originally designed for 2D slices or single 3D scans. To address this, we introduce a novel hierarchical attention mechanism inspired by the intrinsic hierarchy of radiology data: slice, scan, and study. We denote our framework as Hierarchical attention for Language-Image Pre-training (HLIP). Trained on 220K studies with 3.13 million scans for brain MRI and 240K studies with 1.44 million scans for head CT, HLIP achieves state-of-the-art performance, e.g., +10.5% balanced ACC on the proposed publicly available brain MRI benchmark Pub-Brain-5; +8.3% and +1.7% macro AUC on head CT benchmarks CQ500 and RSNA, respectively. HLIP also exhibits strong generalizability on existing 3D medical language-image pre-training benchmarks, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when pre-trained on CT-RATE. These results demonstrate that, with HLIP, directly pre-training on uncurated clinical datasets is a scalable and effective direction for language-image pre-training in 3D medical imaging. The code is available at https://github.com/Zch0414/hlip.


翻译:当前针对CT和MRI等三维医学影像的语言-图像预训练的可扩展性,受限于需要放射科医生手动整理原始临床研究数据。在本工作中,我们率先直接在未经整理的研究数据上进行预训练,这不仅更贴近放射科医师的实际工作流程,也为实现可扩展性提供了自然路径。然而,此类数据的独特结构对现有模型架构提出了新的挑战,这些架构最初是为二维切片或单一三维扫描设计的。为解决这一问题,我们受放射学数据固有层次结构(切片、扫描、研究)的启发,提出了一种新颖的分层注意力机制。我们将该框架命名为分层注意力语言-图像预训练(HLIP)。在包含22万项研究、313万次扫描的脑部MRI数据集,以及包含24万项研究、144万次扫描的头部CT数据集上进行训练后,HLIP取得了最先进的性能表现:例如,在提出的公开脑部MRI基准Pub-Brain-5上平衡准确率提升10.5%;在头部CT基准CQ500和RSNA上宏AUC分别提升8.3%和1.7%。HLIP在现有三维医学语言-图像预训练基准上也表现出强大的泛化能力,例如在CT-RATE上预训练后,在Rad-ChestCT基准上宏AUC提升4.3%。这些结果表明,通过HLIP框架,直接在未经整理的临床数据集上进行预训练,是三维医学影像语言-图像预训练中一条可扩展且有效的技术路线。代码公开于https://github.com/Zch0414/hlip。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员