Laboratory tests in electronic health records are collected irregularly, and the absence of a test order can be as informative as the measurement itself. Such missingness reflects clinicians' decisions and patient physiology, making it important to model it directly rather than treat it as a preprocessing artifact. Here we present a diffusion-based approach for generating clinical time series that jointly models laboratory values and their observation patterns using the public Data Analytics Challenge on Missing Data Imputation (DACMI) benchmark derived from MIMIC-III. To preserve realistic sampling, we align chart times into 4-hour intervals and segment admissions into 7-day windows, producing trajectories that pair each lab value with a corresponding observation indicator. Standard transformations and normalization are applied to stabilize training. Our method extends the TimeDiff framework to learn continuous lab values and discrete missingness patterns through complementary diffusion objectives. Experiments show that the generated data closely match real patient trajectories across individual lab distributions and joint value-missingness embeddings, demonstrating that diffusion models can capture clinically meaningful dependencies between patient physiology and clinicians' testing behavior under MNAR-like (missing-not-at-random) missingness. These preliminary results indicate that our model can serve as an initial component toward developing clinical foundation models. By producing synthetic priors that preserve key physiology-missingness relationships, this work motivates the subsequent training of Prior-Data Fitted Networks capable of leveraging informative missingness, which we will investigate in the extended work.


翻译:电子健康记录中的实验室检测通常是不规则采集的,检测医嘱的缺失本身可能与测量值一样具有信息量。这种缺失反映了临床医生的决策和患者生理状态,因此应直接对其进行建模,而非将其视为预处理中的伪影。本文提出一种基于扩散的方法来生成临床时间序列,该方法使用MIMIC-III数据集的公共缺失数据插补挑战(DACMI)基准,联合建模实验室检测值及其观测模式。为保留真实采样特性,我们将图表时间对齐为4小时间隔,并将住院周期分割为7天窗口,生成每条轨迹中每个实验室值对应一个观测指标的数据对。采用标准化变换和归一化处理以稳定训练过程。通过互补的扩散目标,本方法扩展了TimeDiff框架以学习连续实验室值和离散缺失模式。实验表明,生成数据在单个实验室分布及联合值-缺失嵌入空间中与真实患者轨迹高度吻合,证明扩散模型能够捕捉MNAR(非随机缺失)类缺失机制下患者生理与临床诊疗行为之间的临床相关性依赖。初步结果表明,本模型可作为开发临床基础模型的初始组件。通过生成保留关键生理-缺失关系的合成先验,本研究为后续训练能够利用信息性缺失的先验数据拟合网络奠定基础,相关工作将在扩展研究中进一步探索。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【ICML2023】序列多维自监督学习的临床时间序列建模
专知会员服务
23+阅读 · 2023年7月22日
深度学习在时间序列异常检测中的应用综述
专知会员服务
110+阅读 · 2022年11月11日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
104+阅读 · 2022年7月25日
【ICLR2022】图神经网络复杂时间序列建模
专知会员服务
90+阅读 · 2022年4月15日
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
58+阅读 · 2022年4月2日
【Reza Yazdanfar】基于递归神经网络的多元缺失值时间序列
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员