Recent advances in medical multi-modal models focus on specialized image analysis like dermatology, pathology, or radiology. However, they do not fully capture the complexity of real-world clinical diagnostics, which involve heterogeneous inputs and require ongoing contextual understanding during patient-physician interactions. To bridge this gap, we introduce PulseMind, a new family of multi-modal diagnostic models that integrates a systematically curated dataset, a comprehensive evaluation benchmark, and a tailored training framework. Specifically, we first construct a diagnostic dataset, MediScope, which comprises 98,000 real-world multi-turn consultations and 601,500 medical images, spanning over 10 major clinical departments and more than 200 sub-specialties. Then, to better reflect the requirements of real-world clinical diagnosis, we develop the PulseMind Benchmark, a multi-turn diagnostic consultation benchmark with a four-dimensional evaluation protocol comprising proactiveness, accuracy, usefulness, and language quality. Finally, we design a training framework tailored for multi-modal clinical diagnostics, centered around a core component named Comparison-based Reinforcement Policy Optimization (CRPO). Compared to absolute score rewards, CRPO uses relative preference signals from multi-dimensional com-parisons to provide stable and human-aligned training guidance. Extensive experiments demonstrate that PulseMind achieves competitive performance on both the diagnostic consultation benchmark and public medical benchmarks.


翻译:当前医疗多模态模型的研究进展主要集中于皮肤病学、病理学或放射学等专科影像分析。然而,这些模型未能充分捕捉真实世界临床诊断的复杂性,后者涉及异构输入数据,并需要在医患交互过程中持续进行情境理解。为弥合这一差距,我们提出了PulseMind——一个集成了系统性构建的数据集、综合性评估基准及定制化训练框架的新型多模态诊断模型系列。具体而言,我们首先构建了诊断数据集MediScope,该数据集包含98,000例真实世界多轮会诊记录与601,500张医学影像,涵盖超过10个主要临床科室及200余项亚专科。随后,为更准确反映真实临床诊断需求,我们开发了PulseMind Benchmark——一个采用四维评估协议(主动性、准确性、实用性、语言质量)的多轮诊断会诊基准。最后,我们设计了专为多模态临床诊断定制的训练框架,其核心组件为基于比较的强化策略优化(CRPO)。相较于绝对分数奖励机制,CRPO通过多维比较产生的相对偏好信号,提供稳定且符合人类认知的训练指导。大量实验表明,PulseMind在诊断会诊基准与公共医疗基准测试中均展现出卓越性能。

0
下载
关闭预览

相关内容

Gemini多模态医疗能力
专知会员服务
30+阅读 · 2024年5月12日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
Nature Medicine | 多模态的生物医学AI
专知会员服务
31+阅读 · 2022年9月25日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
83+阅读 · 2022年4月25日
图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建
开放知识图谱
11+阅读 · 2022年10月10日
【AI与医学】多模态机器学习精准医疗健康
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员