Computed Tomography (CT) is one of the most widely used and diagnostically information-dense imaging modalities, covering critical organs such as the heart, lungs, liver, and colon. Clinical interpretation relies on both slice-driven local features (e.g., sub-centimeter nodules, lesion boundaries) and volume-driven spatial representations (e.g., tumor infiltration, inter-organ anatomical relations). However, existing Large Vision-Language Models (LVLMs) remain fragmented in CT slice versus volumetric understanding: slice-driven LVLMs show strong generalization but lack cross-slice spatial consistency, while volume-driven LVLMs explicitly capture volumetric semantics but suffer from coarse granularity and poor compatibility with slice inputs. The absence of a unified modeling paradigm constitutes a major bottleneck for the clinical translation of medical LVLMs. We present OmniCT, a powerful unified slice-volume LVLM for CT scenarios, which makes three contributions: (i) Spatial Consistency Enhancement (SCE): volumetric slice composition combined with tri-axial positional embedding that introduces volumetric consistency, and an MoE hybrid projection enables efficient slice-volume adaptation; (ii) Organ-level Semantic Enhancement (OSE): segmentation and ROI localization explicitly align anatomical regions, emphasizing lesion- and organ-level semantics; (iii) MedEval-CT: the largest slice-volume CT dataset and hybrid benchmark integrates comprehensive metrics for unified evaluation. OmniCT consistently outperforms existing methods with a substantial margin across diverse clinical tasks and satisfies both micro-level detail sensitivity and macro-level spatial reasoning. More importantly, it establishes a new paradigm for cross-modal medical imaging understanding.


翻译:计算机断层扫描(CT)是最广泛应用且诊断信息最密集的成像模态之一,涵盖心脏、肺、肝脏和结肠等关键器官。临床解读既依赖于切片驱动的局部特征(如亚厘米结节、病灶边界),也依赖于体积驱动的空间表征(如肿瘤浸润、器官间解剖关系)。然而,现有极大视觉语言模型(LVLM)在CT切片与体积理解方面仍处于割裂状态:切片驱动的LVLM展现出强泛化能力但缺乏跨切片空间一致性,而体积驱动的LVLM虽能显式捕捉体积语义,却存在粒度粗糙、与切片输入兼容性差的问题。统一建模范式的缺失构成了医学LVLM临床转化的主要瓶颈。本文提出OmniCT,一种面向CT场景的强大统一切片-体积LVLM,其贡献包括:(i)空间一致性增强(SCE):通过体积切片组合与三轴位置编码引入体积一致性,并采用混合专家(MoE)混合投影实现高效的切片-体积适配;(ii)器官级语义增强(OSE):通过分割与感兴趣区域定位显式对齐解剖区域,强化病灶级与器官级语义;(iii)MedEval-CT:最大规模的切片-体积CT数据集与混合基准,整合了统一评估的综合指标。OmniCT在多样化临床任务中均以显著优势超越现有方法,同时满足微观细节敏感性与宏观空间推理需求。更重要的是,它为跨模态医学影像理解建立了新范式。

0
下载
关闭预览

相关内容

基于UNet的医学图像分割综述
专知会员服务
38+阅读 · 2023年8月8日
视觉Transformer预训练模型的胸腔X线影像多标签分类
专知会员服务
14+阅读 · 2022年7月29日
专知会员服务
28+阅读 · 2021年10月6日
专知会员服务
50+阅读 · 2021年8月28日
专知会员服务
37+阅读 · 2021年4月23日
专知会员服务
116+阅读 · 2021年1月11日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
病理图像的全景分割
人工智能前沿讲习班
16+阅读 · 2019年6月1日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
基于深度学习的肿瘤图像分割研究取得进展
中科院之声
17+阅读 · 2017年9月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
最全综述 | 图像分割算法
计算机视觉life
14+阅读 · 2019年6月20日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
病理图像的全景分割
人工智能前沿讲习班
16+阅读 · 2019年6月1日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
基于深度学习的肿瘤图像分割研究取得进展
中科院之声
17+阅读 · 2017年9月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员