World models offer a principled framework for simulating future states under interventions, but realizing such models in complex, high-stakes domains like medicine remains challenging. Recent large language models (LLMs) have achieved strong performance on static medical reasoning tasks, raising the question of whether they can function as dynamic medical world models capable of simulating disease progression and treatment outcomes over time. In this work, we show that LLMs only incorporating medical knowledge struggle to maintain consistent patient states under sequential interventions, leading to error accumulation in long-horizon clinical simulation. To address this limitation, we introduce EHRWorld, a patient-centric medical world model trained under a causal sequential paradigm, together with EHRWorld-110K, a large-scale longitudinal clinical dataset derived from real-world electronic health records. Extensive evaluations demonstrate that EHRWorld significantly outperforms naive LLM-based baselines, achieving more stable long-horizon simulation, improved modeling of clinically sensitive events, and favorable reasoning efficiency, highlighting the necessity of training on causally grounded, temporally evolving clinical data for reliable and robust medical world modeling.


翻译:世界模型为在干预下模拟未来状态提供了一个原则性框架,但在医学这类复杂且高风险的领域中实现此类模型仍然具有挑战性。近期的大型语言模型(LLMs)在静态医学推理任务上取得了强劲的性能,这引发了一个问题:它们是否能够作为动态的医学世界模型,能够随时间模拟疾病进展和治疗结果。在这项工作中,我们表明,仅融合医学知识的LLMs难以在序列干预下维持一致的患者状态,导致长程临床模拟中的误差累积。为了解决这一局限性,我们引入了EHRWorld,一个在因果序列范式下训练的、以患者为中心的医学世界模型,以及EHRWorld-110K,一个源自真实世界电子健康记录的大规模纵向临床数据集。广泛的评估表明,EHRWorld显著优于基于朴素LLM的基线,实现了更稳定的长程模拟、对临床敏感事件的改进建模以及更优的推理效率,这凸显了在因果基础、时间演化的临床数据上进行训练对于可靠且稳健的医学世界建模的必要性。

0
下载
关闭预览

相关内容

医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
世界模型:安全性视角
专知会员服务
40+阅读 · 2024年11月17日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建
开放知识图谱
11+阅读 · 2022年10月10日
【AI与医学】多模态机器学习精准医疗健康
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
医学知识图谱构建技术与研究进展
全球人工智能
19+阅读 · 2017年11月13日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
世界模型:安全性视角
专知会员服务
40+阅读 · 2024年11月17日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员