Synthetic Augmentation in Imbalanced Learning: When It Helps, When It Hurts, and How Much to Add - 专知论文

会员服务 ·

0

合成 · 不平衡 · 样本 · 生成器 · 不平衡学习 ·

Synthetic Augmentation in Imbalanced Learning: When It Helps, When It Hurts, and How Much to Add

翻译：不平衡学习中的合成增强：何时有益、何时有害以及添加多少

Zhengchi Ma,Anru R. Zhang

Imbalanced classification often causes standard training procedures to prioritize the majority class and perform poorly on rare but important cases. A classic and widely used remedy is to augment the minority class with synthetic samples, but two basic questions remain under-resolved: when does synthetic augmentation actually help, and how many synthetic samples should be generated? We develop a unified statistical framework for synthetic augmentation in imbalanced learning, studying models trained on imbalanced data augmented with synthetic minority samples. Our theory shows that synthetic data is not always beneficial. In a "local symmetry" regime, imbalance is not the dominant source of error, so adding synthetic samples cannot improve learning rates and can even degrade performance by amplifying generator mismatch. When augmentation can help ("local asymmetry"), the optimal synthetic size depends on generator accuracy and on whether the generator's residual mismatch is directionally aligned with the intrinsic majority-minority shift. This structure can make the best synthetic size deviate from naive full balancing. Practically, we recommend Validation-Tuned Synthetic Size (VTSS): select the synthetic size by minimizing balanced validation loss over a range centered near the fully balanced baseline, while allowing meaningful departures. Extensive simulations and real data analysis further support our findings.

翻译：不平衡分类常导致标准训练过程偏向多数类，在稀有但重要的案例上表现不佳。一种经典且广泛使用的补救措施是通过合成样本增强少数类，但两个基本问题仍未得到充分解决：合成增强何时真正有效？应生成多少合成样本？我们为不平衡学习中的合成增强建立了一个统一的统计框架，研究在添加了少数类合成样本的不平衡数据上训练的模型。我们的理论表明，合成数据并非总是有益的。在“局部对称”机制下，不平衡并非误差的主要来源，因此添加合成样本无法改善学习速率，甚至可能因放大生成器失配而降低性能。当增强能够发挥作用时（“局部不对称”），最优合成数量取决于生成器精度，以及生成器的残余失配是否与固有的多数类-少数类偏移方向一致。这种结构可能导致最佳合成数量偏离朴素的全平衡基准。在实践中，我们推荐验证调优合成数量（VTSS）：通过在全平衡基线附近范围内最小化平衡验证损失来选择合成数量，同时允许有意义的偏离。大量模拟和真实数据分析进一步支持了我们的发现。

0

相关内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

专知会员服务

16+阅读 · 2025年7月10日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【CVPR2024】生成式多模态模型是优秀的类增量学习器

【CVPR2024】生成式多模态模型是优秀的类增量学习器

专知会员服务

32+阅读 · 2024年3月28日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【NeurIPS2021】半监督节点分类的拓扑不平衡学习

专知会员服务

16+阅读 · 2021年10月18日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Analyzing Shapley Additive Explanations to Understand Anomaly Detection Algorithm Behaviors and Their Complementarity

Arxiv

0+阅读 · 4月23日

Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer

Arxiv

0+阅读 · 4月17日

To Augment or Not to Augment? Diagnosing Distributional Symmetry Breaking

Arxiv

0+阅读 · 3月30日

Synthetic Data, Information, and Prior Knowledge: Why Synthetic Data Augmentation to Boost Sample Doesn't Work for Statistical Inference

Arxiv

0+阅读 · 3月18日

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Arxiv

0+阅读 · 3月17日

Accelerating Residual Reinforcement Learning with Uncertainty Estimation

Accelerating Residual Reinforcement Learning with Uncertainty Estimation

Arxiv

0+阅读 · 3月13日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Arxiv

0+阅读 · 3月4日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

不平衡学习

最新内容

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

0+阅读 · 今天15:36

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

0+阅读 · 今天15:30

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

2+阅读 · 今天14:43

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

2+阅读 · 今天14:30

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

2+阅读 · 今天14:26

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

4+阅读 · 今天14:22

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

3+阅读 · 今天14:12

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

7+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

5+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

10+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

19+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

7+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

5+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

相关VIP内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

【ICML2025】通过双重平衡协同专家解决不平衡的领域增量学习问题

专知会员服务

16+阅读 · 2025年7月10日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

《图强化学习在组合优化中的应用》综述

《图强化学习在组合优化中的应用》综述

专知会员服务

60+阅读 · 2024年4月10日

【CVPR2024】生成式多模态模型是优秀的类增量学习器

【CVPR2024】生成式多模态模型是优秀的类增量学习器

专知会员服务

32+阅读 · 2024年3月28日

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

图上的不均衡数据怎么处理？新加坡国立大学最新《不均衡图学习》综述，详述问题、技术和未来方向

专知会员服务

33+阅读 · 2023年8月31日

【NeurIPS2021】半监督节点分类的拓扑不平衡学习

专知会员服务

16+阅读 · 2021年10月18日

【ICML2021】深入研究不平衡回归问题

专知会员服务

37+阅读 · 2021年6月6日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

【目标检测 | 2019最新综述】目标检测中的不平衡问题，附31页PDF， Imbalance Problems in Object Detection: A Review

专知会员服务

46+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

AgentOps综述：智能体系统运维框架

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《美陆军最新条令：兵力防护》

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

如何理解模型的过拟合与欠拟合，以及如何解决？

如何理解模型的过拟合与欠拟合，以及如何解决？

七月在线实验室

12+阅读 · 2019年4月23日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

相关论文

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Analyzing Shapley Additive Explanations to Understand Anomaly Detection Algorithm Behaviors and Their Complementarity

Arxiv

0+阅读 · 4月23日

Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer

Arxiv

0+阅读 · 4月17日

To Augment or Not to Augment? Diagnosing Distributional Symmetry Breaking

Arxiv

0+阅读 · 3月30日

Synthetic Data, Information, and Prior Knowledge: Why Synthetic Data Augmentation to Boost Sample Doesn't Work for Statistical Inference

Arxiv

0+阅读 · 3月18日

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Arxiv

0+阅读 · 3月17日

Accelerating Residual Reinforcement Learning with Uncertainty Estimation

Accelerating Residual Reinforcement Learning with Uncertainty Estimation

Arxiv

0+阅读 · 3月13日

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Arxiv

0+阅读 · 3月11日

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Arxiv

0+阅读 · 3月4日

Learning from Synthetic Data Improves Multi-hop Reasoning

Arxiv

0+阅读 · 3月2日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员