We develop a data-driven information-theoretic framework for sharp partial identification of causal effects under unmeasured confounding. Existing approaches often rely on restrictive assumptions, such as bounded or discrete outcomes; require external inputs (for example, instrumental variables, proxies, or user-specified sensitivity parameters); necessitate full structural causal model specifications; or focus solely on population-level averages while neglecting covariate-conditional treatment effects. We overcome all four limitations simultaneously by establishing novel information-theoretic, data-driven divergence bounds. Our key theoretical contribution shows that the f-divergence between the observational distribution P(Y | A = a, X = x) and the interventional distribution P(Y | do(A = a), X = x) is upper bounded by a function of the propensity score alone. This result enables sharp partial identification of conditional causal effects directly from observational data, without requiring external sensitivity parameters, auxiliary variables, full structural specifications, or outcome boundedness assumptions. For practical implementation, we develop a semiparametric estimator satisfying Neyman orthogonality (Chernozhukov et al., 2018), which ensures square-root-n consistent inference even when nuisance functions are estimated using flexible machine learning methods. Simulation studies and real-world data applications, implemented in the GitHub repository (https://github.com/yonghanjung/Information-Theretic-Bounds), demonstrate that our framework provides tight and valid causal bounds across a wide range of data-generating processes.


翻译:我们开发了一种数据驱动的信息论框架,用于在未测混杂下对因果效应进行尖锐的部分识别。现有方法通常依赖于限制性假设,如结果变量有界或离散;需要外部输入(例如工具变量、代理变量或用户指定的敏感性参数);要求完整的结构因果模型设定;或仅关注总体水平平均值而忽略协变量条件处理效应。我们通过建立新颖的信息论、数据驱动的散度边界,同时克服了所有四个限制。我们的核心理论贡献表明,观测分布 P(Y | A = a, X = x) 与干预分布 P(Y | do(A = a), X = x) 之间的 f-散度仅由倾向得分函数上界。这一结果使得能够直接从观测数据中对条件因果效应进行尖锐的部分识别,无需外部敏感性参数、辅助变量、完整的结构设定或结果有界性假设。为实现实际应用,我们开发了一种满足 Neyman 正交性(Chernozhukov 等人,2018)的半参数估计器,即使在采用灵活的机器学习方法估计干扰函数时,也能确保平方根 n 一致推断。仿真研究和真实世界数据应用(在 GitHub 仓库 https://github.com/yonghanjung/Information-Theretic-Bounds 中实现)表明,我们的框架能够在广泛的数据生成过程中提供紧致且有效的因果边界。

0
下载
关闭预览

相关内容

通过采集数据(这里的数据必须满足大、全、细、时),将数据进行组织形成信息流,在做决策或者产品、运营等优化时,根据不同需求对信息流进行提炼总结,从而在数据的支撑下或者指导下进行科学的行动叫做数据驱动。
【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
35+阅读 · 2023年6月20日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
专知会员服务
66+阅读 · 2021年1月6日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员