We propose nonparametric identification and semiparametric estimation of joint potential outcome distributions in the presence of confounding. First, in settings with observed confounding, we derive tighter, covariate-informed bounds on the joint distribution by leveraging conditional copulas. To overcome the non-differentiability of bounding min/max operators, we establish the asymptotic properties for both a direct estimator with polynomial margin condition and a smooth approximation with log-sum-exp operator, facilitating valid inference for individual-level effects under the canonical rank-preserving assumption. Second, we tackle the challenge of unmeasured confounding by introducing a causal representation learning framework. By utilizing instrumental variables, we prove the nonparametric identifiability of the latent confounding subspace under injectivity and completeness conditions. We develop a ``triple machine learning" estimator that employs cross-fitting scheme to sequentially handle the learned representation, nuisance parameters, and target functional. We characterize the asymptotic distribution with variance inflation induced by representation learning error, and provide conditions for semiparametric efficiency. We also propose a practical VAE-based algorithm for confounding representation learning. Simulations and real-world analysis validate the effectiveness of proposed methods. By bridging classical semiparametric theory with modern representation learning, this work provides a robust statistical foundation for distributional and counterfactual inference in complex causal systems.


翻译:本文提出了一种在存在混杂因素的情况下,联合潜在结果分布的非参数识别与半参数估计方法。首先,在可观测混杂因素设定下,我们通过利用条件 Copula 函数,推导出关于联合分布更紧的、协变量信息化的边界。为了克服边界 min/max 算子的不可微性,我们分别针对满足多项式边界条件的直接估计量和使用 log-sum-exp 算子的平滑近似,建立了其渐近性质,从而在经典的秩保持假设下,为个体层面效应的有效推断提供了支持。其次,我们通过引入一个因果表示学习框架来应对未观测混杂因素的挑战。通过利用工具变量,我们在单射性和完备性条件下证明了潜在混杂子空间的非参数可识别性。我们开发了一种"三重机器学习"估计量,该估计量采用交叉拟合方案来顺序处理学习到的表示、干扰参数和目标泛函。我们刻画了由表示学习误差引起的方差膨胀下的渐近分布,并给出了达到半参数有效性的条件。我们还提出了一种基于 VAE 的实用算法用于混杂表示学习。模拟实验和真实世界分析验证了所提方法的有效性。通过将经典半参数理论与现代表示学习相结合,本研究为复杂因果系统中的分布与反事实推断提供了坚实的统计学基础。

0
下载
关闭预览

相关内容

【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
35+阅读 · 2023年6月20日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
【MIT博士论文】非参数因果推理的算法方法,424页pdf
专知会员服务
84+阅读 · 2022年9月20日
异质信息网络分析与应用综述,软件学报-北京邮电大学
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员