Missing data is an universal problem in statistics. We develop a unified framework for estimating parameters defined by general estimating equations under a missing-at-random (MAR) mechanism, based on generalized entropy calibration weighting. We construct weights by minimizing a convex entropy subject to (i) balancing constraints on a data-adaptive calibration function, estimated using flexible machine-learning predictors with cross-fitting, and (ii) a debiasing constraint involving the fitted propensity score (PS) model. The resulting estimator is doubly robust, remaining consistent if either the outcome regression (OR) or the PS model is correctly specified, and attains the semiparametric efficiency bound when both models are correctly specified. Our formulation encompasses classical inverse probability weighting (IPW) and augmented IPW (AIPW) as special cases and accommodates a broad class of entropy functions. We illustrate the versatility of the approach in three important settings: semi-supervised learning with unlabeled outcomes, regression analysis with missing covariates, and causal effect estimation in observational studies. Extensive simulation studies and real-data applications demonstrate that the proposed estimators achieve greater efficiency and numerical stability than existing methods. In particular, the proposed estimator outperforms the classical AIPW estimator under the OR model misspecification.


翻译:缺失数据是统计学中的普遍问题。本文基于广义熵校准加权,开发了一个统一框架,用于在随机缺失机制下通过一般估计方程估计参数。我们通过最小化凸熵来构建权重,该过程需满足两个约束条件:(i) 基于数据自适应校准函数的平衡约束(该函数通过交叉拟合的灵活机器学习预测器进行估计),(ii) 涉及已拟合倾向得分模型的去偏约束。所得估计量具有双重稳健性:当结果回归模型或倾向得分模型之一设定正确时保持一致性,当两个模型均正确设定时可达到半参数效率界。我们的框架将经典逆概率加权和增强逆概率加权作为特例包含在内,并能容纳一大类熵函数。我们通过三个重要场景展示了该方法的普适性:无标记结果的半监督学习、含缺失协变量的回归分析,以及观察性研究中的因果效应估计。大量模拟研究和实际数据应用表明,所提出的估计量比现有方法具有更高的效率和数值稳定性。特别地,在结果回归模型误设的情况下,所提出的估计量优于经典的增强逆概率加权估计量。

0
下载
关闭预览

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月3日
Arxiv
0+阅读 · 1月31日
VIP会员
相关VIP内容
【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员