Design-based inference, also known as randomization-based or finite-population inference, provides a principled framework for causal and descriptive analyses that attribute randomness solely to the design mechanism (e.g., treatment assignment, sampling, or missingness) without imposing distributional or modeling assumptions on the outcome data of study units. Despite its conceptual appeal and long history, this framework becomes challenging to apply when the underlying design probabilities (i.e., propensity scores) are unknown, as is common in observational studies, real-world surveys, and missing-data settings. Existing plug-in or matching-based approaches either ignore the uncertainty stemming from estimated propensity scores or rely on the post-matching uniform-propensity condition (an assumption typically violated when there are multiple or continuous covariates), leading to systematic under-coverage. Finite-population M-estimation partially mitigates these issues but remains limited to parametric propensity score models. In this work, we introduce propensity score propagation, a general framework for valid design-based inference with unknown propensity scores. The framework introduces a regeneration-and-union procedure that automatically propagates uncertainty in propensity score estimation into downstream design-based inference. It accommodates both parametric and nonparametric propensity score models, integrates seamlessly with standard tools in design-based inference with known propensity scores, and is universally applicable to various important design-based inference problems, such as observational studies, real-world surveys, and missing-data analyses, among many others. Simulation studies demonstrate that the proposed framework restores nominal coverage levels in settings where conventional methods suffer from severe under-coverage.


翻译:基于设计的推断(亦称随机化推断或有限总体推断)为因果与描述性分析提供了一个原则性框架,该框架将随机性完全归因于设计机制(如处理分配、抽样或缺失机制),而不对研究单元的结果数据施加分布或建模假设。尽管这一框架在概念上具有吸引力且历史悠久,但当底层设计概率(即倾向得分)未知时——这在观察性研究、现实世界调查和缺失数据场景中十分常见——其应用变得极具挑战性。现有的插件法或基于匹配的方法要么忽略由估计倾向得分引起的不确定性,要么依赖于匹配后的均匀倾向得分条件(当存在多个或连续协变量时该条件通常被违反),从而导致系统性覆盖不足。有限总体M估计部分缓解了这些问题,但仍局限于参数化倾向得分模型。本文提出倾向得分传播这一通用框架,用于在倾向得分未知时实现有效的基于设计的推断。该框架引入了一种再生与并集过程,能够自动将倾向得分估计中的不确定性传播至下游的基于设计推断。它兼容参数化和非参数化倾向得分模型,可与已知倾向得分下基于设计推断的标准工具无缝集成,并普遍适用于各类重要的基于设计推断问题,如观察性研究、现实世界调查和缺失数据分析等。模拟研究表明,在传统方法存在严重覆盖不足的场景中,所提框架能够恢复名义覆盖水平。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员