Classification imbalance arises when one class is much rarer than the other. We frame this setting as transfer learning under label (prior) shift between an imbalanced source distribution induced by the observed data and a balanced target distribution under which performance is evaluated. Within this framework, we study a family of oversampling procedures that augment the training data by generating synthetic samples from an estimated minority-class distribution to roughly balance the classes, among which the celebrated SMOTE algorithm is a canonical example. We show that the excess risk decomposes into the rate achievable under balanced training (as if the data had been drawn from the balanced target distribution) and an additional term, the cost of transfer, which quantifies the discrepancy between the estimated and true minority-class distributions. In particular, we show that the cost of transfer for SMOTE dominates that of bootstrapping (random oversampling) in moderately high dimensions, suggesting that we should expect bootstrapping to have better performance than SMOTE in general. We corroborate these findings with experimental evidence. More broadly, our results provide guidance for choosing among augmentation strategies for imbalanced classification.


翻译:分类不平衡问题出现在某一类别远少于其他类别时。我们将此情境构建为标签(先验)偏移下的迁移学习问题,其中由观测数据导出的不平衡源分布与评估性能时所用的平衡目标分布之间存在差异。在此框架下,我们研究了一类过采样方法,这些方法通过从估计的少数类分布生成合成样本来扩充训练数据,以大致平衡各类别——其中著名的SMOTE算法即典型示例。我们证明超额风险可分解为平衡训练下可达到的基准风险(即数据仿佛从平衡目标分布中抽取时)与一个额外项——迁移成本,该项量化了估计的少数类分布与真实分布之间的差异。特别地,我们证明在中等高维空间中,SMOTE的迁移成本主导了自助法(随机过采样)的迁移成本,这表明通常应预期自助法比SMOTE具有更优性能。我们通过实验证据验证了这些发现。更广泛而言,我们的研究结果为不平衡分类中增强策略的选择提供了理论指导。

0
下载
关闭预览

相关内容

【AAAI2023】图上的非独立同分布迁移学习
专知会员服务
24+阅读 · 2022年12月25日
专知会员服务
16+阅读 · 2021年10月18日
专知会员服务
37+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年3月29日
迁移自适应学习最新综述,附21页论文下载
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【迁移学习】迁移学习在图像分类中的简单应用策略
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员