Unlike the case when using a balanced training dataset, the per-class recall (i.e., accuracy) of neural networks trained with an imbalanced dataset are known to vary a lot from category to category. The convention in long-tailed recognition is to manually split all categories into three subsets and report the average accuracy within each subset. We argue that under such an evaluation setting, some categories are inevitably sacrificed. On one hand, focusing on the average accuracy on a balanced test set incurs little penalty even if some worst performing categories have zero accuracy. On the other hand, classes in the "Few" subset do not necessarily perform worse than those in the "Many" or "Medium" subsets. We therefore advocate to focus more on improving the lowest recall among all categories and the harmonic mean of all recall values. Specifically, we propose a simple plug-in method that is applicable to a wide range of methods. By simply re-training the classifier of an existing pre-trained model with our proposed loss function and using an optional ensemble trick that combines the predictions of the two classifiers, we achieve a more uniform distribution of recall values across categories, which leads to a higher harmonic mean accuracy while the (arithmetic) average accuracy is still high. The effectiveness of our method is justified on widely used benchmark datasets.


翻译:与使用平衡训练数据集的情况不同,使用非平衡数据集训练的神经网络在各类别上的召回率(即准确率)已知呈现显著差异。长尾识别领域的惯例是将所有类别手动分为三个子集,并报告每个子集内的平均准确率。我们认为,在这种评估设置下,某些类别不可避免地会被牺牲。一方面,聚焦于平衡测试集上的平均准确率几乎不会带来惩罚,即使某些表现最差的类别准确率为零。另一方面,“少样本”子集中的类别并不必然比“多样本”或“中样本”子集中的类别表现更差。因此,我们主张更多地关注所有类别中的最低召回率以及所有召回率的调和平均数。具体地,我们提出了一种简单的即插即用方法,可广泛适用于多种方法。通过使用我们提出的损失函数重新训练现有预训练模型的分类器,并结合可选的集成技巧(即融合两个分类器的预测结果),我们实现了类别间召回率更均匀的分布,从而在保持高(算术)平均准确率的同时,获得更高的调和平均准确率。我们的方法在广泛使用的基准数据集上得到了有效性验证。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
204+阅读 · 2020年12月5日
专知会员服务
46+阅读 · 2020年10月31日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
word2vec中文语料训练
全球人工智能
13+阅读 · 2018年4月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月8日
Arxiv
13+阅读 · 2021年10月9日
VIP会员
最新内容
《Palantir的科技生态系统》
专知会员服务
0+阅读 · 今天15:23
《反无人机系统传感器融合》90页报告
专知会员服务
3+阅读 · 今天14:57
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
1+阅读 · 今天14:45
ACL 2026 | LLMSurgeon:从生成文本诊断大模型训练数据
【综述】世界模型:架构、方法、推理与应用全景
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
8+阅读 · 6月1日
相关资讯
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
word2vec中文语料训练
全球人工智能
13+阅读 · 2018年4月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员