From structural biology to epidemiology, predictions from machine learning (ML) models increasingly complement costly gold-standard data, enabling faster, more affordable, and scalable scientific inquiry. In response, prediction-based (PB) inference has emerged to support statistical analysis that combines a large volume of predicted data with a small amount of gold-standard data. The goals of PB inference are twofold: (i) to mitigate bias arising from prediction error and (ii) to improve efficiency relative to classical inference based solely on gold-standard data. While early PB inference methods primarily focused on bias mitigation, improving efficiency remains an active area of research. Motivated by connections between PB inference and longstanding problems in statistics and related fields, we draw on the two-phase sampling literature to introduce an approach for Z-estimation with ML-imputed outcomes that is guaranteed to match or exceed the efficiency of classical inference, regardless of prediction quality. We demonstrate the utility of our approach through theoretical and numerical analyses as well as an application to UK Biobank data. We further establish new connections between existing PB inference approaches and foundational and contemporary statistical methods.


翻译:从结构生物学到流行病学,机器学习(ML)模型的预测正日益补充昂贵金标准数据的不足,使得科学研究能够更快、更经济、更具可扩展性。为此,基于预测的(PB)推断方法应运而生,以支持将大量预测数据与少量金标准数据相结合的统计分析。PB推断的目标是双重的:(i)减轻由预测误差引起的偏差,以及(ii)相对于仅基于金标准数据的经典推断提高效率。早期的PB推断方法主要侧重于偏差校正,而提高效率仍然是一个活跃的研究领域。受PB推断与统计学及相关领域长期存在问题之间联系的启发,我们借鉴两阶段抽样文献,提出了一种用于带有ML插补结果的Z估计方法,该方法无论预测质量如何,都能保证匹配或超越经典推断的效率。我们通过理论和数值分析,以及对英国生物银行数据的应用,展示了我们方法的实用性。我们进一步建立了现有PB推断方法与基础及当代统计方法之间的新联系。

0
下载
关闭预览

相关内容

《计算流体力学中的机器学习最新进展》综述
专知会员服务
36+阅读 · 2024年8月24日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月28日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员