Data Augmentation (DA) has become an essential tool to improve robustness and generalization of modern machine learning. However, when deciding on DA strategies it is critical to choose parameters carefully, and this can be a daunting task which is traditionally left to trial-and-error or expensive optimization based on validation performance. In this paper, we counter these limitations by proposing a novel framework for optimizing DA. In particular, we take a probabilistic view of DA, which leads to the interpretation of augmentation parameters as model (hyper)-parameters, and the optimization of the marginal likelihood with respect to these parameters as a Bayesian model selection problem. Due to its intractability, we derive a tractable ELBO, which allows us to optimize augmentation parameters jointly with model parameters. We provide extensive theoretical results on variational approximation quality, generalization guarantees, invariance properties, and connections to empirical Bayes. Through experiments on computer vision and NLP tasks, we show that our approach improves calibration and yields robust performance over fixed or no augmentation. Our work provides a rigorous foundation for optimizing DA through Bayesian principles with significant potential for robust machine learning.


翻译:数据增强已成为提升现代机器学习鲁棒性与泛化能力的关键工具。然而,在确定数据增强策略时,参数选择需格外审慎,这一任务传统上依赖于试错法或基于验证性能的高成本优化,往往令人望而却步。本文针对这些局限提出了一种新颖的数据增强优化框架。具体而言,我们采用数据增强的概率视角,将增强参数诠释为模型(超)参数,并将对这些参数的边缘似然优化构建为一个贝叶斯模型选择问题。针对该问题的难解性,我们推导出一个可处理的证据下界,从而实现对增强参数与模型参数的联合优化。我们提供了关于变分近似质量、泛化保证、不变性特性以及与经验贝叶斯关联的广泛理论结果。通过在计算机视觉和自然语言处理任务上的实验,我们证明该方法能提升模型校准度,并在固定增强或无增强条件下获得更稳健的性能。本研究为通过贝叶斯原理优化数据增强奠定了严格的理论基础,对鲁棒机器学习具有重要潜力。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
最新《生成式数据增强的统一框架》综述,85页pdf
专知会员服务
65+阅读 · 2023年10月8日
专知会员服务
74+阅读 · 2021年7月21日
专知会员服务
66+阅读 · 2021年7月11日
专知会员服务
108+阅读 · 2020年12月21日
【MIT博士论文】数据高效强化学习,176页pdf
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员