Deploying clinical prediction models across healthcare systems often fails when key training covariates are unavailable at deployment and labeled outcomes are limited in the target domain. For example, high-performing models for out-of-hospital cardiac arrest (OHCA) rely on detailed prehospital measurements routinely collected in high-resource settings but unavailable in many international registries. Existing methods either discard missing covariates, sacrificing predictive information, or rely on untestable assumptions about their target distribution. We propose DRUM (\underline{D}istributionally \underline{R}obust \underline{U}nsupervised transfer learning with structurally \underline{M}issing covariates), a framework that transfers prediction models to target populations where certain covariates are structurally absent and outcome labels are unavailable. DRUM partitions covariates into shared components ($X$), observed across all settings, and missing components ($A$), observed only in the source. Rather than imputing missing covariates, DRUM optimizes worst-case predictive performance over the unknown target distribution of $A \mid X$ using a neural network generator, with a robustness parameter controlling allowable deviation from the source conditional. We further develop a bias correction procedure that reduces sensitivity to nuisance estimation error. Simulations show substantial improvements in both mean and worst-case prediction error under distribution shift. Applied to cross-national OHCA prediction, transferring models from a US registry to multiple Asian registries where prehospital variables are unrecorded, DRUM yields better-calibrated predictions and improved clinical classification performance across sites.


翻译:在医疗系统间部署临床预测模型时,关键训练协变量在部署场景中不可用且目标域标签数据有限,往往导致模型失效。例如,院外心脏骤停(OHCA)的高性能模型依赖高资源环境中常规采集的详细院前测量数据,但这类数据在许多国际登记系统中缺失。现有方法或是直接丢弃缺失协变量从而损失预测信息,或是依赖关于目标分布不可验证的假设。本文提出DRUM(基于结构缺失协变量的分布鲁棒无监督迁移学习框架),该框架可将预测模型迁移至某些协变量结构性缺失且无标签数据的目标人群。DRUM将协变量分为共享组件($X$,所有场景均可观测)与缺失组件($A$,仅在源域可观测)。不同于插补缺失协变量,DRUM通过神经网络生成器优化未知目标分布$A \mid X$下的最差预测性能,并引入鲁棒性参数控制与源域条件分布的允许偏离程度。我们进一步开发了偏差校正流程以降低扰动估计误差的影响。模拟实验表明,在分布偏移下,该方法在平均预测误差和最差预测误差上均有显著改善。应用于跨国OHCA预测时(将美国登记系统模型迁移至未记录院前变量的多个亚洲登记系统),DRUM在不同站点均实现了更优校准的预测结果和更佳的临床分类性能。

0
下载
关闭预览

相关内容

【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【斯坦福博士论文】大模型驱动的鲁棒机器学习,243页pdf
因果推断在医药图像的应用:数据缺失和数据不匹配
专知会员服务
58+阅读 · 2022年4月2日
【NeurIPS 2020】深度学习的不确定性估计和鲁棒性
专知会员服务
50+阅读 · 2020年12月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员