Recent advances in medical multi-modal models focus on specialized image analysis like dermatology, pathology, or radiology. However, they do not fully capture the complexity of real-world clinical diagnostics, which involve heterogeneous inputs and require ongoing contextual understanding during patient-physician interactions. To bridge this gap, we introduce PulseMind, a new family of multi-modal diagnostic models that integrates a systematically curated dataset, a comprehensive evaluation benchmark, and a tailored training framework. Specifically, we first construct a diagnostic dataset, MediScope, which comprises 98,000 real-world multi-turn consultations and 601,500 medical images, spanning over 10 major clinical departments and more than 200 sub-specialties. Then, to better reflect the requirements of real-world clinical diagnosis, we develop the PulseMind Benchmark, a multi-turn diagnostic consultation benchmark with a four-dimensional evaluation protocol comprising proactiveness, accuracy, usefulness, and language quality. Finally, we design a training framework tailored for multi-modal clinical diagnostics, centered around a core component named Comparison-based Reinforcement Policy Optimization (CRPO). Compared to absolute score rewards, CRPO uses relative preference signals from multi-dimensional com-parisons to provide stable and human-aligned training guidance. Extensive experiments demonstrate that PulseMind achieves competitive performance on both the diagnostic consultation benchmark and public medical benchmarks.


翻译:当前医疗多模态模型的研究进展主要集中于皮肤病学、病理学或放射学等专科影像分析。然而,这些模型未能充分捕捉真实世界临床诊断的复杂性,后者涉及异构输入数据,并需要在医患交互过程中持续进行情境理解。为弥合这一差距,我们提出了PulseMind——一个集成了系统性构建的数据集、综合性评估基准及定制化训练框架的新型多模态诊断模型系列。具体而言,我们首先构建了诊断数据集MediScope,该数据集包含98,000例真实世界多轮会诊记录与601,500张医学影像,涵盖超过10个主要临床科室及200余项亚专科。随后,为更准确反映真实临床诊断需求,我们开发了PulseMind Benchmark——一个采用四维评估协议(主动性、准确性、实用性、语言质量)的多轮诊断会诊基准。最后,我们设计了专为多模态临床诊断定制的训练框架,其核心组件为基于比较的强化策略优化(CRPO)。相较于绝对分数奖励机制,CRPO通过多维比较产生的相对偏好信号,提供稳定且符合人类认知的训练指导。大量实验表明,PulseMind在诊断会诊基准与公共医疗基准测试中均展现出卓越性能。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员