Missing data is a challenge when developing, validating and deploying clinical prediction models (CPMs). Traditionally, decisions concerning missing data handling during CPM development and validation havent accounted for whether missingness is allowed at deployment. We hypothesised that the missing data approach used during model development should optimise model performance upon deployment, whilst the approach used during model validation should yield unbiased predictive performance estimates upon deployment; we term this compatibility. We aimed to determine which combinations of missing data handling methods across the CPM life cycle are compatible. We considered scenarios where CPMs are intended to be deployed with missing data allowed or not, and we evaluated the impact of that choice on earlier modelling decisions. Through a simulation study and an empirical analysis of thoracic surgery data, we compared CPMs developed and validated using combinations of complete case analysis, mean imputation, single regression imputation, multiple imputation, and pattern sub-modelling. If planning to deploy a CPM without allowing missing data, then development and validation should use multiple imputation when required. Where missingness is allowed at deployment, the same imputation method must be used during development and validation. Commonly used combinations of missing data handling methods result in biased predictive performance estimates.


翻译:缺失数据是临床预测模型开发、验证与部署过程中的一个关键挑战。传统上,在模型开发和验证阶段关于缺失数据处理的决策,往往未考虑部署阶段是否允许数据缺失的存在。我们提出假设:模型开发阶段采用的缺失数据处理方法应优化部署时的模型性能,而模型验证阶段采用的方法应获得部署时无偏的预测性能估计——我们将此定义为兼容性。本研究旨在确定临床预测模型全生命周期中哪些缺失数据处理方法的组合具有兼容性。我们考虑了两种部署场景:允许缺失数据存在与不允许缺失数据存在,并评估该选择对前期建模决策的影响。通过模拟研究和胸外科手术数据的实证分析,我们比较了采用不同组合方法(包括完整病例分析、均值插补、单一回归插补、多重插补和模式子建模)开发和验证的临床预测模型。若计划部署不允许缺失数据的临床预测模型,则开发和验证阶段在需要时应采用多重插补方法。若部署阶段允许缺失数据存在,则开发与验证阶段必须使用相同的插补方法。常用的缺失数据处理方法组合往往会导致预测性能估计产生偏差。

0
下载
关闭预览

相关内容

在统计调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身存在的一些疏忽,使得记录经常会出现 缺失数据 (Missing Data) 的问题。但是,几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息,因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。
【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
专知会员服务
38+阅读 · 2021年5月10日
缺失数据统计分析,第三版,462页pdf
专知会员服务
110+阅读 · 2020年2月28日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
缺失数据统计分析,第三版,462页pdf
专知
48+阅读 · 2020年2月28日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员