In two-phase multiwave sampling, inexpensive measurements are collected on a large sample and expensive, more informative measurements are adaptively obtained on subsets of units across multiple waves. Adaptively collecting the expensive measurements can increase efficiency but complicates statistical inference. We give valid estimators and confidence intervals for M-estimation under adaptive two-phase multiwave sampling. We focus on the case where proxies for the expensive variables -- such as predictions from pretrained machine learning models -- are available for all units and propose a Multiwave Predict-Then-Debias estimator that combines proxy information with the expensive, higher-quality measurements to improve efficiency while removing bias. We establish asymptotic linearity and normality and propose asymptotically valid confidence intervals. We also develop an approximately greedy sampling strategy that improves efficiency relative to uniform sampling. Data-based simulation studies support the theoretical results and demonstrate efficiency gains.


翻译:在两阶段多波次抽样中,首先在大样本上收集成本较低的测量值,随后在多轮次中自适应地对部分单元子集获取成本较高但信息更丰富的测量值。自适应收集高成本测量值可提升效率,但会使统计推断复杂化。本文针对自适应两阶段多波次抽样提出了有效的M估计量及置信区间构造方法。我们重点关注所有单元均存在高成本变量代理指标(例如预训练机器学习模型的预测结果)的情形,提出一种多波次预测-去偏估计量,该估计量通过整合代理信息与高质量高成本测量值,在消除偏差的同时提升估计效率。我们建立了估计量的渐近线性与正态性,并构造了渐近有效的置信区间。此外,本文还提出一种近似贪婪抽样策略,相较于均匀抽样能进一步提升效率。基于实际数据的模拟研究验证了理论结果,并证明了所提方法的效率优势。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 10分钟前
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
1+阅读 · 4月11日
相关VIP内容
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
相关资讯
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员