Heart failure (HF) discharge planning depends on identifying patients at risk of deterioration or death, yet accurate prediction from routinely collected electronic health records (EHRs) remains challenging. We developed and validated sequence models for three one-year prediction tasks in a Swedish HF cohort (N = 42,820): clinical instability (a rehospitalization phenotype) and mortality after the initial in-hospital HF diagnosis, and mortality after the latest hospitalization. A modular three-component framework transforms structured EHRs into patient sequences by specifying tokenization strategies, temporal representations, and model configurations. Patient data included diagnoses, vital signs, laboratories, medications, and procedures. Autoregressive next-token prediction models consistently outperformed alternative objectives in short-context settings (<= 512 tokens). The best model (Llama) achieved AUPRCs (95% CI) of 0.555 (0.535-0.575), 0.582 (0.558-0.608), and 0.854 (0.842-0.865), with robust calibration. Ablations show Llama and Mamba variants learn efficient patient representations, with tiny configurations surpassing larger conventional baselines, indicating that model size alone does not improve performance. With limited clinical concepts or training data, Llama maintains strong performance, frequently surpassing full-data baselines. Combining clinical instability and mortality predictions defines four distinct care pathways, from standard primary care to intensive home care, supporting patient-centered decisions at discharge. These findings demonstrate accurate risk prediction from routine hospital data, provide actionable development guidance, and support post-discharge risk stratification.


翻译:心力衰竭(HF)出院规划取决于识别出存在病情恶化或死亡风险的患者,然而,利用常规收集的电子健康记录(EHRs)进行准确预测仍具挑战性。我们针对瑞典一个HF队列(N = 42,820)开发并验证了用于三个一年预测任务的序列模型:初次住院HF诊断后的临床不稳定性(一种再住院表型)与死亡率,以及最近一次住院后的死亡率。一个模块化的三组件框架通过指定分词策略、时间表示和模型配置,将结构化的EHRs转换为患者序列。患者数据包括诊断、生命体征、实验室检查、药物和手术。在短上下文设置(<= 512 tokens)中,自回归式的下一标记预测模型始终优于其他训练目标。最佳模型(Llama)的AUPRC(95%置信区间)分别达到了0.555(0.535-0.575)、0.582(0.558-0.608)和0.854(0.842-0.865),且具有稳健的校准度。消融实验表明,Llama和Mamba变体能学习高效的患者表示,其微型配置即能超越更大的传统基线模型,这表明模型规模本身并不能提升性能。在临床概念或训练数据有限的情况下,Llama仍能保持强劲性能,常常超越基于完整数据的基线模型。结合临床不稳定性和死亡率预测可定义四条不同的护理路径,从标准的初级护理到强化家庭护理,为出院时的以患者为中心的决策提供支持。这些发现证明了利用常规医院数据进行准确风险预测的可行性,提供了可操作的开发指导,并支持出院后的风险分层。

0
下载
关闭预览

相关内容

《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
深度学习在电力系统预测中的应用
专知会员服务
44+阅读 · 2023年1月31日
CVPR 2021 | 时间序列疾病预测的因果隐马尔可夫模型
专知会员服务
64+阅读 · 2021年4月11日
专知会员服务
237+阅读 · 2020年12月15日
【华侨大学】基于混合深度学习算法的疾病预测模型
专知会员服务
97+阅读 · 2020年1月21日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
0+阅读 · 43分钟前
GNN跨域综述:从消息传递到图基础模型
专知会员服务
0+阅读 · 45分钟前
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员