While Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in tasks such as abnormality detection and report generation for anatomical modalities, their capability in functional imaging remains largely unexplored. In this work, we identify and quantify a fundamental functional perception gap: the inability of current vision encoders to decode functional tracer biodistribution independent of morphological priors. Identifying Positron Emission Tomography (PET) as the quintessential modality to investigate this disconnect, we introduce PET-Bench, the first large-scale functional imaging benchmark comprising 52,308 hierarchical QA pairs from 9,732 multi-site, multi-tracer PET studies. Extensive evaluation of 19 state-of-the-art MLLMs reveals a critical safety hazard termed the Chain-of-Thought (CoT) hallucination trap. We observe that standard CoT prompting, widely considered to enhance reasoning, paradoxically decouples linguistic generation from visual evidence in PET, producing clinically fluent but factually ungrounded diagnoses. To resolve this, we propose Atomic Visual Alignment (AVA), a simple fine-tuning strategy that enforces the mastery of low-level functional perception prior to high-level diagnostic reasoning. Our results demonstrate that AVA effectively bridges the perception gap, transforming CoT from a source of hallucination into a robust inference tool and improving diagnostic accuracy by up to 14.83%. Code and data are available at https://github.com/yezanting/PET-Bench.


翻译:尽管多模态大语言模型(MLLMs)在解剖模态的异常检测和报告生成等任务中展现出卓越能力,但其在功能成像领域的性能仍鲜有探索。本研究揭示并量化了一个根本性的功能感知鸿沟:当前视觉编码器无法独立于形态学先验解码功能示踪剂的生物分布。以正电子发射断层扫描(PET)作为研究这一脱节现象的典型模态,我们提出了PET-Bench——首个大规模功能成像基准,包含来自9,732项多中心、多示踪剂PET研究的52,308个分层问答对。对19个前沿MLLMs的广泛评估揭示了一个关键的安全隐患,即思维链(CoT)幻觉陷阱。我们发现,被广泛认为能增强推理能力的标准CoT提示法,在PET中反而会解耦语言生成与视觉证据,产生临床表述流畅但事实依据不足的诊断。为解决此问题,我们提出了原子视觉对齐(AVA),这是一种简单的微调策略,强制模型在高级诊断推理之前掌握低层功能感知能力。实验结果表明,AVA有效弥合了感知鸿沟,将CoT从幻觉来源转化为稳健的推理工具,并将诊断准确率最高提升14.83%。代码与数据详见https://github.com/yezanting/PET-Bench。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员