Debiased machine learning estimators for smooth functionals in nonparametric models can exhibit substantial variability and instability, often leading practitioners to instead rely on parametric or semiparametric working models. Such models, however, may be misspecified and can therefore introduce bias. We study how data-driven model selection can be combined with debiased machine learning to construct estimators that adapt to structure in the data-generating distribution. To this end, we propose Adaptive Debiased Machine Learning (ADML), a nonparametric framework for constructing superefficient estimators of pathwise differentiable parameters. The framework unifies a broad class of previously proposed adaptive estimators, including methods based on variable selection, learned feature representations, and collaborative targeted learning. It requires only high-level conditions and approximate validity of the selection procedure, which are implied by lower-level conditions already assumed in important settings, including sieve-based selection, sparsity-based methods such as the Lasso, and data-adaptive feature representations. We show that ADML estimators yield regular and efficient root-\(n\) inference for an oracle projection parameter induced by a data-adaptive oracle submodel. This oracle parameter coincides with the target parameter at the true distribution but typically has a smaller efficiency bound, thereby yielding superefficiency for the target parameter. As a practical illustration, we introduce a broad class of automatic ADML estimators for continuous linear functionals of the outcome regression, in which model selection is performed directly on the regression itself. Motivated by overlap challenges in causal inference, we develop new superefficient plug-in estimators for the average treatment effect based on calibration in semiparametric regression models.


翻译:非参数模型中光滑泛函的去偏机器学习估计量可能出现显著的变异性和不稳定性,这常导致实践者转而依赖参数或半参数工作模型。然而此类模型可能因错误设定而产生偏差。我们研究如何将数据驱动的模型选择与去偏机器学习相结合,以构建能自适应数据生成分布结构的估计量。为此,提出自适应去偏机器学习(ADML)——一个用于构建路径可微参数超有效估计量的非参数框架。该框架统一了包括变量选择、学习特征表示和协同目标学习等方法在内的广泛自适应估计量类别。它仅需高层条件及选择过程近似有效性,这些条件可由重要场景中已假设的低层条件推导得出,包含筛基选择、基于稀疏性的方法(如Lasso)以及数据自适应特征表示。我们证明ADML估计量能为数据自适应子模型诱导的投射参数提供正则且有效的根号n推断。该投射参数在真实分布下与目标参数一致,但通常具有更小的效率上界,从而为目标参数产生超有效性。作为实际应用,我们为结果回归的连续线性泛函引入了一类广泛的自动ADML估计量,其中模型选择直接作用于回归函数本身。受因果推断中重叠问题的启发,我们基于半参数回归模型校准开发了用于平均处理效应的新型超有效插入估计量。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月6日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 22分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 24分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 36分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 56分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员