Despite recent Multimodal Large Language Models (MLLMs)' linguistic prowess in medical diagnosis, we find even state-of-the-art MLLMs suffer from a critical perceptual deficit: geometric blindness. This failure to ground outputs in objective geometric constraints leads to plausible yet factually incorrect hallucinations, rooted in training paradigms that prioritize linguistic fluency over geometric fidelity. This paper introduces Med-Scout, a novel framework that "cures" this blindness via Reinforcement Learning (RL) that leverages the intrinsic geometric logic latent within unlabeled medical images. Instead of relying on costly expert annotations, Med-Scout derives verifiable supervision signals through three strategic proxy tasks: Hierarchical Scale Localization, Topological Jigsaw Reconstruction, and Anomaly Consistency Detection. To rigorously quantify this deficit, we present Med-Scout-Bench, a new benchmark specifically designed to evaluate geometric perception. Extensive evaluations show that Med-Scout significantly mitigates geometric blindness, outperforming leading proprietary and open-source MLLMs by over 40% on our benchmark. Furthermore, this enhanced geometric perception generalizes to broader medical understanding, achieving superior results on radiological and comprehensive medical VQA tasks.


翻译:尽管当前的多模态大语言模型(MLLMs)在医学诊断中展现出卓越的语言能力,我们发现即使是性能最先进的MLLMs也存在一个关键的感知缺陷:几何盲视。这种无法将输出结果建立在客观几何约束之上的缺陷,导致了看似合理但事实错误的幻觉,其根源在于训练范式优先考虑语言流畅性而忽视了几何保真度。本文提出了Med-Scout,一个通过强化学习(RL)来“治愈”这种盲视的新型框架,该框架利用了未标记医学图像中潜在的固有几何逻辑。Med-Scout不依赖昂贵的专家标注,而是通过三个策略性代理任务来获取可验证的监督信号:分层尺度定位、拓扑拼图重建和异常一致性检测。为了严格量化这一缺陷,我们提出了Med-Scout-Bench,这是一个专门用于评估几何感知能力的新基准。广泛的评估表明,Med-Scout显著缓解了几何盲视问题,在我们的基准测试中,其性能超越了领先的专有和开源MLLMs超过40%。此外,这种增强的几何感知能力能够泛化到更广泛的医学理解任务中,在放射学及综合性医学视觉问答任务上取得了优异的结果。

0
下载
关闭预览

相关内容

多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员