Long-tailed image classification remains a long-standing challenge, as real-world data typically follow highly imbalanced distributions where a few head classes dominate and many tail classes contain only limited samples. This imbalance biases feature learning toward head categories and leads to significant degradation on rare classes. Although recent studies have proposed re-sampling, re-weighting, and decoupled learning strategies, the improvement on the most underrepresented classes still remains marginal compared with overall accuracy. In this work, we present a confusion-centric perspective for long-tailed recognition that explicitly focuses on worst-class generalization. We first establish a new theoretical framework of class-specific error analysis, which shows that the worst-class error can be tightly upper-bounded by the spectral norm of the frequency-weighted confusion matrix and a model-dependent complexity term. Guided by this insight, we propose the Confusion-Aware Spectral Regularizer (CAR) that minimizes the spectral norm of the confusion matrix during training to reduce inter-class confusion and enhance tail-class generalization. To enable stable and efficient optimization, CAR integrates a Differentiable Confusion Matrix Surrogate and an EMA-based Confusion Estimator to maintain smooth and low-variance estimates across mini-batches. Extensive experiments across multiple long-tailed benchmarks demonstrates that CAR substantially improves both worst-class accuracy and overall performance. When combined with ConCutMix augmentation, CAR consistently surpasses exisiting state-of-the-art long-tailed learning methods under both the training-from-scratch setting (by 2.37% ~ 4.83%) and the fine-tuning-from-pretrained setting (by 2.42% ~ 4.17%) across ImageNet-LT, CIFAR100-LT, and iNaturalist datasets.


翻译:长尾图像分类仍然是一个长期存在的挑战,因为现实世界的数据通常遵循高度不平衡的分布,其中少数头部类别占据主导地位,而许多尾部类别仅包含有限的样本。这种不平衡使得特征学习偏向于头部类别,并导致稀有类别的性能显著下降。尽管最近的研究提出了重采样、重加权和解耦学习策略,但与整体准确率相比,对最代表性不足类别的改进仍然有限。在这项工作中,我们提出了一个以混淆为中心的长尾识别视角,明确关注最差类别的泛化能力。我们首先建立了一个新的类别特定误差分析理论框架,该框架表明最差类别误差可以被频率加权混淆矩阵的谱范数和一个模型相关的复杂度项紧密上界。基于这一见解,我们提出了混淆感知谱正则化器(CAR),它在训练过程中最小化混淆矩阵的谱范数,以减少类间混淆并增强尾部类别的泛化能力。为了实现稳定高效的优化,CAR集成了一个可微混淆矩阵替代项和一个基于指数移动平均(EMA)的混淆估计器,以在整个小批量训练中保持平滑且低方差的估计。在多个长尾基准数据集上的大量实验表明,CAR显著提高了最差类别准确率和整体性能。当与ConCutMix数据增强结合使用时,在ImageNet-LT、CIFAR100-LT和iNaturalist数据集上,无论是从零开始训练(提升2.37% ~ 4.83%)还是从预训练模型微调(提升2.42% ~ 4.17%)的设置下,CAR均持续超越了现有的最先进长尾学习方法。

0
下载
关闭预览

相关内容

深度长尾学习研究综述
专知会员服务
28+阅读 · 2025年2月12日
《长尾学习》最新2024年综述
专知会员服务
31+阅读 · 2024年8月3日
【CVPR2023】自异构融合知识挖掘的长尾视觉识别
专知会员服务
16+阅读 · 2023年4月6日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
59+阅读 · 2021年10月14日
专知会员服务
24+阅读 · 2021年9月16日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
半监督深度学习小结:类协同训练和一致性正则化
一文概览基于深度学习的超分辨率重建架构
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
13+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关VIP内容
深度长尾学习研究综述
专知会员服务
28+阅读 · 2025年2月12日
《长尾学习》最新2024年综述
专知会员服务
31+阅读 · 2024年8月3日
【CVPR2023】自异构融合知识挖掘的长尾视觉识别
专知会员服务
16+阅读 · 2023年4月6日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
59+阅读 · 2021年10月14日
专知会员服务
24+阅读 · 2021年9月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员