Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities, yet their application to medical ultrasound remains constrained by the significant domain shift between natural images and sonographic data. The unique physics of ultrasound, manifesting as speckle noise, shadowing, and variable artifacts, often leads to suboptimal performance when applying off-the-shelf foundation models. To address this, we propose a novel Hybrid-tuning (HT) strategy for the efficient adaptation of CLIP-based models to ultrasound analysis. Our method introduces a lightweight adapter module integrated into the frozen visual backbone, featuring frequency-domain filtering to suppress periodic artifacts and dynamic noise estimation to calibrate feature representations. Furthermore, we design specialized segmentation and classification heads that employ multi-scale feature aggregation to maximize the utility of pre-trained semantic priors. Extensive evaluations across six multi-center datasets (covering lymph nodes, breast, thyroid, and prostate) reveal that our HT-enhanced models significantly outperform existing state-of-the-art methods, including BiomedCLIP and standard LoRA fine-tuning. The results highlight the superior data efficiency and robustness of our approach, paving the way for practical, foundational intelligence in automated ultrasound diagnosis. The source code is available at https://github.com/jinggqu/NextGen-UIA.


翻译:视觉-语言模型(VLMs)已展现出卓越的泛化能力,但其在医学超声领域的应用仍受限于自然图像与超声影像数据之间的显著域偏移。超声成像特有的物理特性,表现为斑点噪声、声影及多变的伪影,导致直接应用现成的基础模型时性能往往欠佳。为解决此问题,我们提出一种新颖的混合调优(HT)策略,用于将基于CLIP的模型高效适配于超声图像分析。该方法在冻结的视觉主干网络中引入一个轻量级适配器模块,该模块包含频域滤波以抑制周期性伪影,以及动态噪声估计以校准特征表示。此外,我们设计了专用的分割与分类头,采用多尺度特征聚合以最大化利用预训练的语义先验。在涵盖淋巴结、乳腺、甲状腺及前列腺的六个多中心数据集上进行广泛评估,结果表明,经HT增强的模型显著超越了包括BiomedCLIP和标准LoRA微调在内的现有最先进方法。这些结果凸显了本方法在数据效率和鲁棒性方面的优越性,为自动化超声诊断中实用化基础智能的发展铺平了道路。源代码发布于 https://github.com/jinggqu/NextGen-UIA。

0
下载
关闭预览

相关内容

在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
49+阅读 · 2024年4月12日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
基于深度学习的图像超分辨率最新进展与趋势【附PDF】
人工智能前沿讲习班
15+阅读 · 2019年2月27日
深度学习图像超分辨率最新综述:从模型到应用
炼数成金订阅号
65+阅读 · 2019年2月20日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
深度学习下的医学图像分析(四)
AI研习社
19+阅读 · 2017年7月19日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
49+阅读 · 2024年4月12日
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员