Optimizing Data Augmentation through Bayesian Model Selection - 专知论文

会员服务 ·

0

数据增强 · 贝叶斯 · 贝叶斯模型 · 模型选择 · 鲁棒 ·

Optimizing Data Augmentation through Bayesian Model Selection

翻译：基于贝叶斯模型选择的数据增强优化

Madi Matymov,Ba-Hien Tran,Michael Kampffmeyer,Markus Heinonen,Maurizio Filippone

from arxiv, 26 pages, 3 figures

Data Augmentation (DA) has become an essential tool to improve robustness and generalization of modern machine learning. However, when deciding on DA strategies it is critical to choose parameters carefully, and this can be a daunting task which is traditionally left to trial-and-error or expensive optimization based on validation performance. In this paper, we counter these limitations by proposing a novel framework for optimizing DA. In particular, we take a probabilistic view of DA, which leads to the interpretation of augmentation parameters as model (hyper)-parameters, and the optimization of the marginal likelihood with respect to these parameters as a Bayesian model selection problem. Due to its intractability, we derive a tractable ELBO, which allows us to optimize augmentation parameters jointly with model parameters. We provide extensive theoretical results on variational approximation quality, generalization guarantees, invariance properties, and connections to empirical Bayes. Through experiments on computer vision and NLP tasks, we show that our approach improves calibration and yields robust performance over fixed or no augmentation. Our work provides a rigorous foundation for optimizing DA through Bayesian principles with significant potential for robust machine learning.

翻译：数据增强已成为提升现代机器学习鲁棒性与泛化能力的关键工具。然而，在确定数据增强策略时，参数选择需格外审慎，这一任务传统上依赖于试错法或基于验证性能的高成本优化，往往令人望而却步。本文针对这些局限提出了一种新颖的数据增强优化框架。具体而言，我们采用数据增强的概率视角，将增强参数诠释为模型（超）参数，并将对这些参数的边缘似然优化构建为一个贝叶斯模型选择问题。针对该问题的难解性，我们推导出一个可处理的证据下界，从而实现对增强参数与模型参数的联合优化。我们提供了关于变分近似质量、泛化保证、不变性特性以及与经验贝叶斯关联的广泛理论结果。通过在计算机视觉和自然语言处理任务上的实验，我们证明该方法能提升模型校准度，并在固定增强或无增强条件下获得更稳健的性能。本研究为通过贝叶斯原理优化数据增强奠定了严格的理论基础，对鲁棒机器学习具有重要潜力。

0

相关内容

数据增强

数据增强在机器学习领域多指采用一些方法（比如数据蒸馏，正负样本均衡等）来提高模型数据集的质量，增强数据。

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

42+阅读 · 2024年9月22日

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

专知会员服务

35+阅读 · 2024年7月16日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

图上如何做数据增强？浙大最新《图数据增强》综述全面阐述特征、节点、边、子图、图和标签图数据增强方法

图上如何做数据增强？浙大最新《图数据增强》综述全面阐述特征、节点、边、子图、图和标签图数据增强方法

专知会员服务

50+阅读 · 2022年12月26日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

序列数据的数据增强方法综述

专知会员服务

74+阅读 · 2021年7月21日

文本分类数据增强综述

专知会员服务

66+阅读 · 2021年7月11日

【AAAI2021】数据增强图神经网络

专知会员服务

108+阅读 · 2020年12月21日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Bayesian Variational Inference for Mixed Data Mixture Models

Arxiv

0+阅读 · 3月2日

Adversarial Query Synthesis via Bayesian Optimization

Arxiv

0+阅读 · 3月2日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Sequential Data Augmentation for Generative Recommendation

Arxiv

0+阅读 · 2月22日

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Arxiv

0+阅读 · 2月17日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

The geometry of invariant learning: an information-theoretic analysis of data augmentation and generalization

Arxiv

0+阅读 · 2月16日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

LatentTune: Efficient Tuning of High Dimensional Database Parameters via Latent Representation Learning

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

贝叶斯模型

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

1+阅读 · 9分钟前

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

1+阅读 · 12分钟前

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

1+阅读 · 20分钟前

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

3+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

8+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

11+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

18+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

42+阅读 · 2024年9月22日

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

专知会员服务

35+阅读 · 2024年7月16日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

图上如何做数据增强？浙大最新《图数据增强》综述全面阐述特征、节点、边、子图、图和标签图数据增强方法

图上如何做数据增强？浙大最新《图数据增强》综述全面阐述特征、节点、边、子图、图和标签图数据增强方法

专知会员服务

50+阅读 · 2022年12月26日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

序列数据的数据增强方法综述

专知会员服务

74+阅读 · 2021年7月21日

文本分类数据增强综述

专知会员服务

66+阅读 · 2021年7月11日

【AAAI2021】数据增强图神经网络

专知会员服务

108+阅读 · 2020年12月21日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Bayesian Variational Inference for Mixed Data Mixture Models

Arxiv

0+阅读 · 3月2日

Adversarial Query Synthesis via Bayesian Optimization

Arxiv

0+阅读 · 3月2日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Sequential Data Augmentation for Generative Recommendation

Arxiv

0+阅读 · 2月22日

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Arxiv

0+阅读 · 2月17日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

The geometry of invariant learning: an information-theoretic analysis of data augmentation and generalization

Arxiv

0+阅读 · 2月16日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

LatentTune: Efficient Tuning of High Dimensional Database Parameters via Latent Representation Learning

Arxiv

0+阅读 · 2月4日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

9+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员