Trustworthy AI/ML Regression and Unbiased Causal Inference for Real-World Data - 专知论文

会员服务 ·

0

ML · AI · 无偏 · 推断 · 因果推断 ·

Trustworthy AI/ML Regression and Unbiased Causal Inference for Real-World Data

翻译：可信赖的AI/ML回归与面向真实世界数据的无偏因果推断

Yifei Xu,Hwiyoung Lee,Zhenyao Ye,Yezhi Pan,Jingsong Zhou,Yun Yang,Chixiang Chen,Shuo Chen

from arxiv, 17 pages, 4 figures, 4 tables; includes supplementary material

Real-World Data (RWD), with its large sample sizes and rich clinical detail, offers a compelling alternative to randomized controlled trials (RCTs) for studying treatment effects in diverse and complex patient populations. However, its observational nature introduces confounding that prevents straightforward comparative effectiveness research. Target trial emulation leverages RWD to estimate average treatment effects (ATE) at the population scale and diversity that RCTs cannot achieve, yet its validity depends critically on unbiased ATE estimation under high-dimensional confounding. Many causal inference pipelines address high-dimensional confounding through machine learning and artificial intelligence (ML/AI) outcome regression. However, commonly used ML/AI regression models exhibit systematic prediction bias, with predicted outcomes shrinking toward the marginal outcome mean. This structural bias propagates into ATE estimation and cannot be corrected by cross-fitting, ensemble methods, or any standard ML practice. In this work, we first quantitatively characterize how systematic prediction bias in ML/AI outcome regression leads to biased ATE estimates in causal inference models. We further propose an unbiased ML/AI regression-based causal inference framework to ensure unbiased ATE estimation for observational studies. We demonstrate our approach by studying the effects of opioids on cardiovascular health in patients with chronic pain using UK Biobank data.

翻译：真实世界数据（RWD）凭借其大样本量和丰富的临床细节，为研究多样化复杂患者群体的治疗效果提供了随机对照试验（RCT）之外的强有力替代方案。然而，其观察性本质引入了混杂因素，阻碍了直接的比较效果研究。目标试验模拟利用RWD来估计RCT无法实现的人群规模与多样性的平均处理效应（ATE），但其有效性关键取决于在高维混杂因素下对ATE的无偏估计。许多因果推断流程通过机器学习和人工智能（ML/AI）结果回归来处理高维混杂。然而，常用的ML/AI回归模型表现出系统性预测偏差，预测结果向边际结果均值收缩。这种结构性偏差会传播至ATE估计中，且无法通过交叉拟合、集成方法或任何标准ML实践来校正。本文首先定量刻画了ML/AI结果回归中的系统性预测偏差如何导致因果推断模型中ATE估计的有偏性。我们进一步提出了一种基于无偏ML/AI回归的因果推断框架，以确保观察性研究中ATE估计的无偏性。通过使用英国生物样本库数据研究阿片类药物对慢性疼痛患者心血管健康的影响，我们验证了该方法的效果。

0

相关内容

【CMU博士论文】迈向可靠且稳健的高维结果因果推断

【CMU博士论文】迈向可靠且稳健的高维结果因果推断

专知会员服务

17+阅读 · 2025年8月1日

【CMU博士论文】迈向具有高维结果的可靠且稳健的因果推断

【CMU博士论文】迈向具有高维结果的可靠且稳健的因果推断

专知会员服务

22+阅读 · 2025年7月13日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

专知会员服务

39+阅读 · 2024年3月25日

因果学习在可信赖推荐系统中的应用综述

因果学习在可信赖推荐系统中的应用综述

专知会员服务

18+阅读 · 2024年2月15日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知会员服务

84+阅读 · 2022年7月20日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

Nature计算科学综述：经由准实验从观察数据中推测因果关系

Nature计算科学综述：经由准实验从观察数据中推测因果关系

专知会员服务

36+阅读 · 2021年3月25日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

开放知识图谱

11+阅读 · 2022年10月10日

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

最新《因果推断导论: 从机器学习视角》新书稿，92页pdf

最新《因果推断导论: 从机器学习视角》新书稿，92页pdf

专知

61+阅读 · 2020年9月29日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Arxiv

0+阅读 · 6月11日

An Estimator-Robust Design for Augmenting Randomized Controlled Trials with External Real-World Data

Arxiv

0+阅读 · 6月8日

Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection

Arxiv

0+阅读 · 6月2日

Debiased inference for stochastic treatment interventions with survival outcomes

Arxiv

0+阅读 · 5月29日

Causally-interpretable meta-analysis using aggregate data

Arxiv

0+阅读 · 5月26日

Causal mediation analysis for longitudinal and survival data in continuous time using Bayesian non-parametric joint models

Arxiv

0+阅读 · 5月18日

Improving ecological inference and uncertainty quantification from camera trap data through the fusion of AI confidences and manual annotations

Arxiv

0+阅读 · 5月13日

Toward a practical handbook for choosing among causal inference methods in non-randomized studies with binary outcomes: A simulation study for applied researchers

Arxiv

0+阅读 · 5月13日

GenAI Powered Dynamic Causal Inference with Unstructured Data

Arxiv

0+阅读 · 5月8日

Survey on Trustworthy Graph Neural Networks: From A Causal Perspective

Arxiv

10+阅读 · 2023年12月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【CMU博士论文】迈向可靠且稳健的高维结果因果推断

【CMU博士论文】迈向可靠且稳健的高维结果因果推断

专知会员服务

17+阅读 · 2025年8月1日

【CMU博士论文】迈向具有高维结果的可靠且稳健的因果推断

【CMU博士论文】迈向具有高维结果的可靠且稳健的因果推断

专知会员服务

22+阅读 · 2025年7月13日

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

【剑桥大学博士论文】使用机器学习的因果推断中的两个问题的半参数方法

专知会员服务

26+阅读 · 2024年5月25日

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

专知会员服务

39+阅读 · 2024年3月25日

因果学习在可信赖推荐系统中的应用综述

因果学习在可信赖推荐系统中的应用综述

专知会员服务

18+阅读 · 2024年2月15日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知会员服务

84+阅读 · 2022年7月20日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

Nature计算科学综述：经由准实验从观察数据中推测因果关系

Nature计算科学综述：经由准实验从观察数据中推测因果关系

专知会员服务

36+阅读 · 2021年3月25日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

图谱实战 | 真实世界医疗知识图谱及临床事件图谱构建

开放知识图谱

11+阅读 · 2022年10月10日

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

【2022新书】用回归来解决比较、估计、预测和因果推断的实际问题，546页pdf

专知

26+阅读 · 2022年2月2日

最新《因果推断导论: 从机器学习视角》新书稿，92页pdf

最新《因果推断导论: 从机器学习视角》新书稿，92页pdf

专知

61+阅读 · 2020年9月29日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

机器学习的可解释性：因果推理和稳定学习

机器学习的可解释性：因果推理和稳定学习

DataFunTalk

13+阅读 · 2020年3月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

赛尔原创 | ACM BCB 2018 CausalTriad: 从医学文本数据中推断出新的因果关系假设

哈工大SCIR

14+阅读 · 2018年6月28日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems

Arxiv

0+阅读 · 6月11日

An Estimator-Robust Design for Augmenting Randomized Controlled Trials with External Real-World Data

Arxiv

0+阅读 · 6月8日

Do Real-World Datasets Contain Natural Experiments? An Empirical Study Using Causal Feature Selection

Arxiv

0+阅读 · 6月2日

Debiased inference for stochastic treatment interventions with survival outcomes

Arxiv

0+阅读 · 5月29日

Causally-interpretable meta-analysis using aggregate data

Arxiv

0+阅读 · 5月26日

Causal mediation analysis for longitudinal and survival data in continuous time using Bayesian non-parametric joint models

Arxiv

0+阅读 · 5月18日

Improving ecological inference and uncertainty quantification from camera trap data through the fusion of AI confidences and manual annotations

Arxiv

0+阅读 · 5月13日

Toward a practical handbook for choosing among causal inference methods in non-randomized studies with binary outcomes: A simulation study for applied researchers

Arxiv

0+阅读 · 5月13日

GenAI Powered Dynamic Causal Inference with Unstructured Data

Arxiv

0+阅读 · 5月8日

Survey on Trustworthy Graph Neural Networks: From A Causal Perspective

Arxiv

10+阅读 · 2023年12月19日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于部分核实数据的统计推断及应用

国家自然科学基金

0+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员