Real-World Data (RWD), with its large sample sizes and rich clinical detail, offers a compelling alternative to randomized controlled trials (RCTs) for studying treatment effects in diverse and complex patient populations. However, its observational nature introduces confounding that prevents straightforward comparative effectiveness research. Target trial emulation leverages RWD to estimate average treatment effects (ATE) at the population scale and diversity that RCTs cannot achieve, yet its validity depends critically on unbiased ATE estimation under high-dimensional confounding. Many causal inference pipelines address high-dimensional confounding through machine learning and artificial intelligence (ML/AI) outcome regression. However, commonly used ML/AI regression models exhibit systematic prediction bias, with predicted outcomes shrinking toward the marginal outcome mean. This structural bias propagates into ATE estimation and cannot be corrected by cross-fitting, ensemble methods, or any standard ML practice. In this work, we first quantitatively characterize how systematic prediction bias in ML/AI outcome regression leads to biased ATE estimates in causal inference models. We further propose an unbiased ML/AI regression-based causal inference framework to ensure unbiased ATE estimation for observational studies. We demonstrate our approach by studying the effects of opioids on cardiovascular health in patients with chronic pain using UK Biobank data.


翻译:真实世界数据(RWD)凭借其大样本量和丰富的临床细节,为研究多样化复杂患者群体的治疗效果提供了随机对照试验(RCT)之外的强有力替代方案。然而,其观察性本质引入了混杂因素,阻碍了直接的比较效果研究。目标试验模拟利用RWD来估计RCT无法实现的人群规模与多样性的平均处理效应(ATE),但其有效性关键取决于在高维混杂因素下对ATE的无偏估计。许多因果推断流程通过机器学习和人工智能(ML/AI)结果回归来处理高维混杂。然而,常用的ML/AI回归模型表现出系统性预测偏差,预测结果向边际结果均值收缩。这种结构性偏差会传播至ATE估计中,且无法通过交叉拟合、集成方法或任何标准ML实践来校正。本文首先定量刻画了ML/AI结果回归中的系统性预测偏差如何导致因果推断模型中ATE估计的有偏性。我们进一步提出了一种基于无偏ML/AI回归的因果推断框架,以确保观察性研究中ATE估计的无偏性。通过使用英国生物样本库数据研究阿片类药物对慢性疼痛患者心血管健康的影响,我们验证了该方法的效果。

0
下载
关闭预览

相关内容

【CMU博士论文】迈向可靠且稳健的高维结果因果推断
专知会员服务
17+阅读 · 2025年8月1日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
因果学习在可信赖推荐系统中的应用综述
专知会员服务
18+阅读 · 2024年2月15日
【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt
专知会员服务
84+阅读 · 2022年7月20日
图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建
开放知识图谱
11+阅读 · 2022年10月10日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员