Promptable segmentation foundation models such as SAM3 have demonstrated strong generalization capabilities through interactive and concept-based prompting. However, their direct applicability to medical image segmentation remains limited by severe domain shifts, the absence of privileged spatial prompts, and the need to reason over complex anatomical and volumetric structures. Here we present Medical SAM3, a foundation model for universal prompt-driven medical image segmentation, obtained by fully fine-tuning SAM3 on large-scale, heterogeneous 2D and 3D medical imaging datasets with paired segmentation masks and text prompts. Through a systematic analysis of vanilla SAM3, we observe that its performance degrades substantially on medical data, with its apparent competitiveness largely relying on strong geometric priors such as ground-truth-derived bounding boxes. These findings motivate full model adaptation beyond prompt engineering alone. By fine-tuning SAM3's model parameters on 33 datasets spanning 10 medical imaging modalities, Medical SAM3 acquires robust domain-specific representations while preserving prompt-driven flexibility. Extensive experiments across organs, imaging modalities, and dimensionalities demonstrate consistent and significant performance gains, particularly in challenging scenarios characterized by semantic ambiguity, complex morphology, and long-range 3D context. Our results establish Medical SAM3 as a universal, text-guided segmentation foundation model for medical imaging and highlight the importance of holistic model adaptation for achieving robust prompt-driven segmentation under severe domain shift. Code and model will be made available at https://github.com/AIM-Research-Lab/Medical-SAM3.


翻译:诸如SAM3等可提示分割基础模型通过交互式和基于概念的提示展现了强大的泛化能力。然而,其直接应用于医学图像分割仍受到严重领域偏移、缺乏特权空间提示以及需要对复杂解剖和体积结构进行推理的限制。本文提出Medical SAM3,一种面向通用提示驱动医学图像分割的基础模型,该模型通过对SAM3在大规模、异构的二维和三维医学影像数据集(包含配对分割掩码与文本提示)上进行全面微调获得。通过对原始SAM3的系统分析,我们发现其在医学数据上的性能显著下降,其表面竞争力主要依赖于强几何先验(如基于真实标注的边界框)。这些发现促使我们超越单纯的提示工程,进行完整的模型适配。通过在涵盖10种医学影像模态的33个数据集上微调SAM3的模型参数,Medical SAM3获得了鲁棒的领域特定表征,同时保持了提示驱动的灵活性。跨器官、影像模态和维度的广泛实验证明了其一致且显著的性能提升,尤其在以语义模糊性、复杂形态学和长程三维上下文为特征的挑战性场景中。我们的研究确立了Medical SAM3作为医学影像领域通用、文本引导的分割基础模型,并强调了在严重领域偏移下实现鲁棒提示驱动分割时整体模型适配的重要性。代码与模型将在https://github.com/AIM-Research-Lab/Medical-SAM3 公开。

0
下载
关闭预览

相关内容

SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
《生物医学图像分割的基础模型》综述
专知会员服务
31+阅读 · 2024年1月18日
分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合
专知会员服务
53+阅读 · 2023年6月16日
高效医疗图像分析的统一表示
专知会员服务
36+阅读 · 2020年6月23日
基于深度学习的医学图像半监督分割
CVer
14+阅读 · 2020年9月24日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员