Class imbalance poses a significant challenge to supervised classification, particularly in critical domains like medical diagnostics and anomaly detection where minority class instances are rare. While numerous studies have explored rebalancing techniques to address this issue, less attention has been given to evaluating the performance of binary classifiers under imbalance when no such techniques are applied. Therefore, the goal of this study is to assess the performance of binary classifiers "as-is", without performing any explicit rebalancing. Specifically, we systematically evaluate the robustness of a diverse set of binary classifiers across both real-world and synthetic datasets, under progressively reduced minority class sizes, using one-shot and few-shot scenarios as baselines. Our approach also explores varying data complexities through synthetic decision boundary generation to simulate real-world conditions. In addition to standard classifiers, we include experiments using undersampling, oversampling strategies, and one-class classification (OCC) methods to examine their behavior under severe imbalance. The results confirm that classification becomes more difficult as data complexity increases and the minority class size decreases. While traditional classifiers deteriorate under extreme imbalance, advanced models like TabPFN and boosting-based ensembles retain relatively higher performance and better generalization compared to traditional classifiers. Visual interpretability and evaluation metrics further validate these findings. Our work offers valuable guidance on model selection for imbalanced learning, providing insights into classifier robustness without dependence on explicit rebalancing techniques.


翻译:类别不平衡对监督分类构成了重大挑战,尤其是在医疗诊断和异常检测等少数类样本罕见的关键领域。尽管大量研究探索了再平衡技术以解决这一问题,但在未应用此类技术的情况下,评估二分类器在不平衡数据上的性能却较少受到关注。因此,本研究的目标是评估二分类器在"原样"状态下(即不执行任何显式再平衡)的性能。具体而言,我们系统评估了多种二分类器在真实世界和合成数据集上,随着少数类样本规模逐步缩减时的鲁棒性,并以单样本和少样本场景作为基线。我们的方法还通过合成决策边界生成来探索不同数据复杂度,以模拟真实世界条件。除标准分类器外,我们纳入了使用欠采样、过采样策略及单类分类方法的实验,以考察其在严重不平衡下的行为。结果表明,随着数据复杂度增加和少数类规模减小,分类难度显著上升。传统分类器在极端不平衡下性能恶化,而TabPFN与基于提升的集成模型等先进模型相较于传统分类器仍能保持较高的性能和更好的泛化能力。视觉可解释性与评估指标进一步验证了这些发现。本研究为不平衡学习中的模型选择提供了有价值的指导,揭示了分类器在不依赖显式再平衡技术情况下的鲁棒性见解。

0
下载
关闭预览

相关内容

分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
专知会员服务
16+阅读 · 2021年10月18日
专知会员服务
37+阅读 · 2021年6月6日
专知会员服务
38+阅读 · 2021年3月29日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员