PulseMind：面向真实世界临床诊断的多模态医疗模型 (PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis) - 专知论文

会员服务 ·

0

多模 · 模态 · 基准 · 多模态 · 数据集 ·

PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis

翻译：PulseMind：面向真实世界临床诊断的多模态医疗模型

Jiao Xu,Junwei Liu,Jiangwei Lao,Qi Zhu,Yunpeng Zhao,Congyun Jin,Shinan Liu,Zhihong Lu,Lihe Zhang,Xin Chen,Jian Wang,Ping Wang

from arxiv, Accepted to AAAI 2026

Recent advances in medical multi-modal models focus on specialized image analysis like dermatology, pathology, or radiology. However, they do not fully capture the complexity of real-world clinical diagnostics, which involve heterogeneous inputs and require ongoing contextual understanding during patient-physician interactions. To bridge this gap, we introduce PulseMind, a new family of multi-modal diagnostic models that integrates a systematically curated dataset, a comprehensive evaluation benchmark, and a tailored training framework. Specifically, we first construct a diagnostic dataset, MediScope, which comprises 98,000 real-world multi-turn consultations and 601,500 medical images, spanning over 10 major clinical departments and more than 200 sub-specialties. Then, to better reflect the requirements of real-world clinical diagnosis, we develop the PulseMind Benchmark, a multi-turn diagnostic consultation benchmark with a four-dimensional evaluation protocol comprising proactiveness, accuracy, usefulness, and language quality. Finally, we design a training framework tailored for multi-modal clinical diagnostics, centered around a core component named Comparison-based Reinforcement Policy Optimization (CRPO). Compared to absolute score rewards, CRPO uses relative preference signals from multi-dimensional com-parisons to provide stable and human-aligned training guidance. Extensive experiments demonstrate that PulseMind achieves competitive performance on both the diagnostic consultation benchmark and public medical benchmarks.

翻译：当前医疗多模态模型的研究进展主要集中于皮肤病学、病理学或放射学等专科影像分析。然而，这些模型未能充分捕捉真实世界临床诊断的复杂性，后者涉及异构输入数据，并需要在医患交互过程中持续进行情境理解。为弥合这一差距，我们提出了PulseMind——一个集成了系统性构建的数据集、综合性评估基准及定制化训练框架的新型多模态诊断模型系列。具体而言，我们首先构建了诊断数据集MediScope，该数据集包含98,000例真实世界多轮会诊记录与601,500张医学影像，涵盖超过10个主要临床科室及200余项亚专科。随后，为更准确反映真实临床诊断需求，我们开发了PulseMind Benchmark——一个采用四维评估协议（主动性、准确性、实用性、语言质量）的多轮诊断会诊基准。最后，我们设计了专为多模态临床诊断定制的训练框架，其核心组件为基于比较的强化策略优化（CRPO）。相较于绝对分数奖励机制，CRPO通过多维比较产生的相对偏好信号，提供稳定且符合人类认知的训练指导。大量实验表明，PulseMind在诊断会诊基准与公共医疗基准测试中均展现出卓越性能。

0

相关内容

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

专知会员服务

23+阅读 · 2024年12月16日

Gemini多模态医疗能力

Gemini多模态医疗能力

专知会员服务

30+阅读 · 2024年5月12日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

Nature Medicine | 多模态的生物医学AI

Nature Medicine | 多模态的生物医学AI

专知会员服务

31+阅读 · 2022年9月25日

【Scientific Reports】《多中心影像诊断的联邦学习：心血管疾病的模拟研究》

【Scientific Reports】《多中心影像诊断的联邦学习：心血管疾病的模拟研究》

专知会员服务

20+阅读 · 2022年8月4日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知会员服务

83+阅读 · 2022年4月25日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

开放知识图谱

11+阅读 · 2022年10月10日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories

Arxiv

0+阅读 · 2月3日

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

Arxiv

0+阅读 · 2月3日

Robust Multimodal Representation Learning in Healthcare

Arxiv

0+阅读 · 1月29日

MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning

Arxiv

0+阅读 · 1月26日

DermaBench: A Clinician-Annotated Benchmark Dataset for Dermatology Visual Question Answering and Reasoning

Arxiv

0+阅读 · 1月20日

HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs

Arxiv

0+阅读 · 1月20日

Multi-Stage Patient Role-Playing Framework for Realistic Clinical Interactions

Arxiv

0+阅读 · 1月16日

Towards Trustworthy Dermatology MLLMs: A Benchmark and Multimodal Evaluator for Diagnostic Narratives

Arxiv

0+阅读 · 1月12日

MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models

Arxiv

0+阅读 · 1月6日

DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

超越生成式人工智能：用于临床预测、反事实推断与规划的世界模型

专知会员服务

22+阅读 · 2025年11月23日

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

【CMU博士论文】分析多模态机器学习模型性能及其在医学报告生成中的评估指标

专知会员服务

23+阅读 · 2024年12月16日

Gemini多模态医疗能力

Gemini多模态医疗能力

专知会员服务

30+阅读 · 2024年5月12日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

Nature Medicine | 多模态的生物医学AI

Nature Medicine | 多模态的生物医学AI

专知会员服务

31+阅读 · 2022年9月25日

【Scientific Reports】《多中心影像诊断的联邦学习：心血管疾病的模拟研究》

【Scientific Reports】《多中心影像诊断的联邦学习：心血管疾病的模拟研究》

专知会员服务

20+阅读 · 2022年8月4日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知会员服务

83+阅读 · 2022年4月25日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

乌克兰开放真实战场数据以训练国防人工智能

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

美陆军下一代指挥控制（NGC2）原型系统借助Raft数据平台展示快速决策能力

相关资讯

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

开放知识图谱

11+阅读 · 2022年10月10日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

22+阅读 · 2022年4月12日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

相关论文

EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories

Arxiv

0+阅读 · 2月3日

MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning

Arxiv

0+阅读 · 2月3日

Robust Multimodal Representation Learning in Healthcare

Arxiv

0+阅读 · 1月29日

MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning

Arxiv

0+阅读 · 1月26日

DermaBench: A Clinician-Annotated Benchmark Dataset for Dermatology Visual Question Answering and Reasoning

Arxiv

0+阅读 · 1月20日

HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs

Arxiv

0+阅读 · 1月20日

Multi-Stage Patient Role-Playing Framework for Realistic Clinical Interactions

Arxiv

0+阅读 · 1月16日

Towards Trustworthy Dermatology MLLMs: A Benchmark and Multimodal Evaluator for Diagnostic Narratives

Arxiv

0+阅读 · 1月12日

MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models

Arxiv

0+阅读 · 1月6日

DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs

Arxiv

0+阅读 · 1月5日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

精细亚区尺度难治性抑郁症异常神经环路的多模态MRI解析

国家自然科学基金

0+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态脑影像处理和多维可视化的辅助诊疗技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员