We propose the data augmented bootstrap (DAB), a framework for constructing confidence intervals from approximately invariant transformations of the data. As special cases, DAB recovers popular methods that rely on exact group symmetries, such as conformal prediction, wild bootstrap for Maximum Mean Discrepancy U-statistics and the recently proposed SymmPI. Meanwhile, DAB also recovers the classical bootstrap method, which exploits the dataset's approximate invariance under uniform sampling of data indices as the dataset size grows. For all DAB methods, we establish theoretical coverage results that interpolate between finite-sample and asymptotic guarantees according to the strength of the invariance, and without assuming a group structure. The approximate invariance is measured in the Kolmogorov distance and, for statistics that satisfy Gaussian universality, reduces to conditional mean and variance matching. This allows us to incorporate data augmentation (DA), a widely used machine learning heuristic based on approximate invariances, into known statistical methods. We empirically test the performance of incorporating DA into bootstrap, wild bootstrap and conformal prediction for simulated settings as well as for image, language and scientific data.


翻译:我们提出数据增强自助法(DAB),这是一种利用数据的近似不变变换来构建置信区间的框架。作为特例,DAB能够还原依赖精确群对称性的流行方法,如共形预测、最大均值差异U统计量的野自助法以及近期提出的SymmPI方法。与此同时,DAB也还原了经典自助法——该方法利用数据集在均匀采样数据索引时随样本量增大而呈现的近似不变性。对所有DAB方法,我们在理论上建立了覆盖结果,这些结果根据不变性的强度在有限样本保证与渐近保证之间平滑插值,且无需假设群结构。近似不变性通过Kolmogorov距离度量,对于满足高斯普适性的统计量,可简化为条件均值与方差匹配。这使我们能将数据增强(DA)——这一基于近似不变性的广泛使用的机器学习启发式方法——融入已知统计方法。我们在模拟场景以及图像、语言和科学数据上,实证检验了将DA融入自助法、野自助法和共形预测的表现。

0
下载
关闭预览

相关内容

最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
65+阅读 · 2023年10月8日
专知会员服务
75+阅读 · 2021年7月21日
专知会员服务
66+阅读 · 2021年7月11日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
58+阅读 · 2020年3月6日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员