This pedagogical review examines the use of machine learning methods in finite-population inference for survey sampling, with an emphasis on design-based validity and statistical inference. While flexible prediction tools offer substantial gains in estimation accuracy, they also introduce important challenges, primarily due to the dependence between the fitted predictors and the sample. We focus on settings in which such predictions enter survey estimation through model-assisted estimation, item nonresponse imputation, and unit nonresponse adjustment. For model-assisted estimation and item nonresponse, we show how cross-fitting and Neyman-orthogonal estimating equations can adapt ideas from double/debiased machine learning to survey data, allowing the use of high-dimensional or nonparametric learners while preserving root-n consistency and asymptotic normality under suitable conditions. In contrast, for unit nonresponse, standard inverse-probability weighting remains outcome-agnostic and operationally attractive, but this same feature makes doubly robust and orthogonal constructions harder to deploy in official statistics. We also briefly discuss related developments in small area estimation and probability/nonprobability data integration. Overall, the paper highlights both the promise of machine learning and the fundamental inferential challenges it raises for survey practice.


翻译:本教学综述探讨了机器学习方法在调查抽样中有限总体推断的应用,重点聚焦于基于设计的有效性和统计推断。尽管灵活的预测工具能显著提升估计精度,但它们也带来了重要挑战,主要源于拟合预测值与样本之间的依赖性。我们重点关注此类预测通过模型辅助估计、项目无回答插补和单元无回答调整进入调查估计的场景。针对模型辅助估计和项目无回答,我们展示了交叉拟合和奈曼正交估计方程如何将双/去偏机器学习中的概念适配至调查数据,从而在适当条件下允许使用高维或非参数学习器,同时保持根号n一致性和渐近正态性。相比之下,对于单元无回答,标准逆概率加权仍保持结果无关性和操作便利性,但这一特性使得双重稳健和正交结构在官方统计中更难部署。我们还简要讨论了小区域估计以及概率/非概率数据整合领域的相关进展。总体而言,本文既凸显了机器学习的潜力,也揭示了其为调查实践带来的根本性推断挑战。

0
下载
关闭预览

相关内容

【CMU博士论文】可解释机器学习方法与应用,127页pdf
专知会员服务
78+阅读 · 2023年6月6日
专知会员服务
113+阅读 · 2020年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 4月7日
Arxiv
18+阅读 · 2019年1月16日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【CMU博士论文】可解释机器学习方法与应用,127页pdf
专知会员服务
78+阅读 · 2023年6月6日
专知会员服务
113+阅读 · 2020年3月20日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员