自然语言本质上编码了人类的知识与推理逻辑。本论文探讨了语言如何作为人类与医学影像人工智能(AI)方法之间的接口。语言既可以作为一种监督信号或约束,用以学习捕捉人类对医学影像理解的深层表示;同时,语言也可以作为一种媒介,使 AI 系统能够向用户传达其决策过程。 * 视觉语言解释基准(e-ViL Benchmark):首先,我引入了 e-ViL 基准,用于系统性地评估视觉语言模型生成自然语言解释(NLEs)的能力。通过引入目前规模最大的数据集、整合现有数据并提出一种新颖的架构,我证明了文本解释能够有效约束模型推理,并提供一种符合人类认知过程的可解释性接口。此外,本项工作揭示了自动评价指标在评估 NLE 质量方面的局限性,并据此提出了一个人工评估框架。 * 医学影像中的 NLE 扩展:基于上述见解,我将 NLE 的概念扩展至医学影像领域(特别是胸部 X 光分析)。通过直接从放射科报告中提取解释,我构建了新型数据集。在该数据集上训练的模型不仅能生成镜像模拟放射科医生推理逻辑的解释,且通过强调模型规模与思维链(Chain-of-Thought, CoT)提示词,显著提升了诊断准确率。 * 临床应用中的双重影响:第三,为进一步理解语言作为 AI 决策沟通媒介的作用,我组织了一项大规模用户研究,邀请 85 名临床医生在不同的可解释性(XAI)条件下与 AI 进行交互。研究揭示了一个关键的矛盾现象:临床医生强烈倾向于使用基于语言的解释,但往往对其产生过度依赖(Overrely),导致诊断错误率升高。这些发现强调了将此类基于语言的 AI 系统整合至临床环境时所需的复杂性与谨慎态度。 * 语言引导的监督学习泛化:最后,我将语言作为监督信号的方法泛化至脑部 MRI 模型的从头训练(Training from scratch)中。该方法有效解决了该领域标注医学数据稀缺的问题,并提升了一系列下游任务的性能,展示了语言引导学习在医学影像中的广泛适用性与巨大潜力。
本论文深化了我们对语言与医学 AI 模型集成的理解。研究表明,该集成在提升模型性能与可解释性方面具有显著优势,同时也指出了为确保临床部署的安全性和有效性所必须解决的关键问题。