Echocardiographic diagnosis is vital for cardiac screening yet remains challenging. Existing echocardiography foundation models do not effectively capture the relationships between quantitative measurements and clinical manifestations, whereas medical reasoning multimodal large language models (MLLMs) require costly construction of detailed reasoning paths and remain ineffective at directly incorporating such echocardiographic priors into their reasoning. To address these limitations, we propose a novel approach comprising Cardiac Reasoning Template (CRT) and CardiacMind to enhance MLLM's echocardiographic reasoning by introducing cardiologist-like mindset. Specifically, CRT provides stepwise canonical diagnostic procedures for complex cardiac diseases to streamline reasoning path construction without the need for costly case-by-case verification. To incentivize reasoning MLLM under CRT, we develop CardiacMind, a new reinforcement learning scheme with three novel rewards: Procedural Quantity Reward (PQtR), Procedural Quality Reward (PQlR), and Echocardiographic Semantic Reward (ESR). PQtR promotes detailed reasoning; PQlR promotes integration of evidence across views and modalities, while ESR grounds stepwise descriptions in visual content. Our methods show a 48% improvement in multiview echocardiographic diagnosis for 15 complex cardiac diseases and a 5% improvement on CardiacNet-PAH over prior methods. The user study on our method's reasoning outputs shows 93.33% clinician agreement with cardiologist-like reasoning logic. Our code will be available.


翻译:超声心动图诊断对心脏筛查至关重要,但依然具有挑战性。现有的超声心动图基础模型未能有效捕捉定量测量与临床表现之间的关系,而医学推理多模态大语言模型(MLLMs)需要耗费高昂成本构建详细的推理路径,且仍难以将此类超声心动图先验知识直接融入其推理过程。为应对这些局限,我们提出一种包含心脏推理模板(CRT)与CardiacMind的新方法,通过引入类心脏病专家思维模式来增强MLLM的超声心动图推理能力。具体而言,CRT为复杂心脏疾病提供分步规范诊断流程,从而简化推理路径构建,无需进行昂贵的逐例验证。为激励MLLM在CRT框架下进行推理,我们开发了CardiacMind——一种新型强化学习方案,包含三个创新奖励机制:流程数量奖励(PQtR)、流程质量奖励(PQlR)和超声心动图语义奖励(ESR)。PQtR促进详细推理;PQlR推动跨视图与多模态证据的整合;而ESR则将分步描述锚定于视觉内容。我们的方法在15种复杂心脏疾病的多视图超声心动图诊断中实现了48%的性能提升,在CardiacNet-PAH数据集上较现有方法提升5%。针对本方法推理输出的用户研究表明,其推理逻辑获得93.33%临床医生的认可,符合类心脏病专家推理范式。代码将公开提供。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态大语言模型遇见多模态情绪识别与推理:综述
专知会员服务
22+阅读 · 2025年10月3日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员