Active Statistical Inference is a new framework to make precise claims about population parameters with provable statistical guarantees. It uses a predictive "black-box" machine learning (ML) model to strategically decide which data points to label, roughly prioritizing samples for which the ML model is unsure about their label values. A major issue is that the framework can be brittle when uncertainty estimates are noisy. This paper introduces OPAL (Optimized Policy for Allocation of Labels), which learns a labeling strategy within a tractable class of smooth policies to yield estimators with the lowest variance. In effect, OPAL is an end-to-end pipeline that turns a black-box model's uncertainty scores into a data-adaptive labeling strategy and then performs inference on the collected samples. We evaluate OPAL on real datasets spanning medical imaging data, computational social science, and proteomics. As a concrete example, we consider predicting breast cancer subtype from histopathology images and using OPAL to form valid confidence intervals for odds ratios for different demographic groups. We show that OPAL achieves nominal coverage in finite samples and has the accuracy one expects from methods which have far more labeled samples.


翻译:主动统计推断是一种新框架,能以可证明的统计保证对总体参数做出精确论断。该框架利用预测性"黑箱"机器学习模型,策略性地决定哪些数据点需要标注,其核心逻辑是优先标注机器学习模型对其标签值不确定的样本。主要问题在于,当不确定性估计存在噪声时,该框架可能表现脆弱。本文提出OPAL(标注分配优化策略),该方法在平滑策略的可处理类中学习标注策略,从而得到方差最小的估计量。本质上,OPAL是一条端到端流程,能将黑箱模型的不确定性得分转化为数据自适应的标注策略,并对收集的样本进行推断。我们在涵盖医学影像数据、计算社会科学和蛋白质组学的真实数据集上评估了OPAL。以具体案例为证,我们考虑从组织病理学图像预测乳腺癌亚型,并利用OPAL为不同人口统计群体的优势比构建有效置信区间。实验表明,OPAL在有限样本下实现了名义覆盖度,且其准确度可媲美需要多得多标注样本的方法。

0
下载
关闭预览

相关内容

大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
237页ppt《主动学习》最新概述,Stefano Teso讲授!
专知会员服务
66+阅读 · 2022年8月28日
【文献综述】深度学习目标检测方法及其主流框架综述
专知会员服务
119+阅读 · 2020年6月26日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员