Imbalanced classification presents a formidable challenge in machine learning, particularly when tabular datasets are plagued by noise and overlapping class boundaries. From a geometric perspective, the core difficulty lies in the topological intrusion of the majority class into the minority manifold, which obscures the true decision boundary. Traditional undersampling techniques, such as Edited Nearest Neighbours (ENN), typically employ symmetric cleaning rules and uniform voting, failing to capture the local manifold structure and often inadvertently removing informative minority samples. In this paper, we propose GMR (Geometric Manifold Rectification), a novel framework designed to robustly handle imbalanced structured data by exploiting local geometric priors. GMR makes two contributions: (1) Geometric confidence estimation that uses inverse-distance weighted kNN voting with an adaptive distance metric to capture local reliability; and (2) asymmetric cleaning that is strict on majority samples while conservatively protecting minority samples via a safe-guarding cap on minority removal. Extensive experiments on multiple benchmark datasets show that GMR is competitive with strong sampling baselines.


翻译:不平衡分类在机器学习中提出了一个严峻的挑战,尤其是在表格数据集受到噪声和重叠类边界困扰时。从几何角度来看,核心困难在于多数类在拓扑结构上侵入了少数类流形,从而模糊了真实的决策边界。传统的欠采样技术,如编辑最近邻(ENN),通常采用对称的清理规则和均匀投票,无法捕捉局部流形结构,并且常常无意中移除了信息丰富的少数类样本。在本文中,我们提出了GMR(几何流形校正),这是一个新颖的框架,旨在通过利用局部几何先验,鲁棒地处理不平衡的结构化数据。GMR做出了两项贡献:(1)几何置信度估计,它使用具有自适应距离度量的反距离加权kNN投票来捕捉局部可靠性;(2)非对称清理,它对多数类样本严格,同时通过设定少数类样本移除的安全上限来保守地保护少数类样本。在多个基准数据集上的大量实验表明,GMR与强大的采样基线方法相比具有竞争力。

0
下载
关闭预览

相关内容

不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
【ACMMM2024】用于多媒体推荐的模态平衡学习"
专知会员服务
13+阅读 · 2024年8月14日
专知会员服务
16+阅读 · 2021年10月18日
专知会员服务
37+阅读 · 2021年6月6日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员