We investigate whether temporal embedding models trained on longitudinal electronic health records can learn clinically meaningful representations without compromising predictive performance, and how architectural choices affect embedding quality. Model-guided medicine requires representations that capture disease dynamics while remaining transparent and task agnostic, whereas most clinical prediction models are optimised for a single task. Representation learning facilitates learning embeddings that generalise across downstream tasks, and recurrent architectures are well-suited for modelling temporal structure in observational clinical data. Using the MIMIC-IV dataset, we study patients with chronic kidney disease (CKD) and compare three recurrent architectures: a vanilla LSTM, an attention-augmented LSTM, and a time-aware LSTM (T-LSTM). All models are trained both as embedding models and as direct end-to-end predictors. Embedding quality is evaluated via CKD stage clustering and in-ICU mortality prediction. The T-LSTM produces more structured embeddings, achieving a lower Davies-Bouldin Index (DBI = 9.91) and higher CKD stage classification accuracy (0.74) than the vanilla LSTM (DBI = 15.85, accuracy = 0.63) and attention-augmented LSTM (DBI = 20.72, accuracy = 0.67). For in-ICU mortality prediction, embedding models consistently outperform end-to-end predictors, improving accuracy from 0.72-0.75 to 0.82-0.83, which indicates that learning embeddings as an intermediate step is more effective than direct end-to-end learning.


翻译:本研究探讨了基于纵向电子健康记录训练的时序嵌入模型是否能在不损害预测性能的前提下学习具有临床意义的表征,以及架构选择如何影响嵌入质量。模型引导的医学需要能够捕捉疾病动态、同时保持透明且与任务无关的表征,而大多数临床预测模型仅针对单一任务进行优化。表征学习有助于学习可泛化至下游任务的嵌入,循环架构特别适合对观察性临床数据中的时序结构进行建模。利用MIMIC-IV数据集,我们研究了慢性肾病(CKD)患者,并比较了三种循环架构:标准LSTM、注意力增强LSTM以及时间感知LSTM(T-LSTM)。所有模型均以嵌入模型和直接端到端预测器两种形式进行训练。通过CKD分期聚类和ICU内死亡率预测来评估嵌入质量。T-LSTM生成了更具结构化的嵌入,其戴维斯-布尔丁指数更低(DBI = 9.91)、CKD分期分类准确率更高(0.74),优于标准LSTM(DBI = 15.85,准确率 = 0.63)和注意力增强LSTM(DBI = 20.72,准确率 = 0.67)。在ICU内死亡率预测任务中,嵌入模型始终优于端到端预测器,将准确率从0.72-0.75提升至0.82-0.83,这表明将学习嵌入作为中间步骤比直接端到端学习更为有效。

0
下载
关闭预览

相关内容

利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
【阿姆斯特丹博士论文】表格表示学习,179页pdf
专知会员服务
36+阅读 · 2024年4月6日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
【AI与医学】多模态机器学习精准医疗健康
知识图谱嵌入的Translate模型汇总(TransE,TransH,TransR,TransD)
深度学习自然语言处理
31+阅读 · 2020年6月12日
大讲堂 | 知识图谱的嵌入:更好更快的负采样
AI研习社
13+阅读 · 2019年3月6日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
【阿姆斯特丹博士论文】表格表示学习,179页pdf
专知会员服务
36+阅读 · 2024年4月6日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员