Label Smoothing (LS) is widely adopted to reduce overconfidence in neural network predictions and improve generalization. Despite these benefits, recent studies reveal two critical issues with LS. First, LS induces overconfidence in misclassified samples. Second, it compacts feature representations into overly tight clusters, diluting intra-class diversity, although the precise cause of this phenomenon remained elusive. In this paper, we analytically decompose the LS-induced loss, exposing two key terms: (i) a regularization term that dampens overconfidence only when the prediction is correct, and (ii) an error-amplification term that arises under misclassifications. This latter term compels the network to reinforce incorrect predictions with undue certainty, exacerbating representation collapse. To address these shortcomings, we propose Max Suppression (MaxSup), which applies uniform regularization to both correct and incorrect predictions by penalizing the top-1 logit rather than the ground-truth logit. Through extensive feature-space analyses, we show that MaxSup restores intra-class variation and sharpens inter-class boundaries. Experiments on large-scale image classification and multiple downstream tasks confirm that MaxSup is a more robust alternative to LS. Code is available at: https://github.com/ZhouYuxuanYX/Maximum-Suppression-Regularization


翻译:标签平滑(LS)被广泛用于降低神经网络预测的过度自信并提升泛化能力。尽管具有这些优势,近期研究揭示了LS存在的两个关键问题。首先,LS会导致误分类样本的过度自信。其次,它会将特征表征压缩成过于紧密的簇,削弱类内多样性,尽管这一现象的确切原因此前尚不明确。本文通过解析分解LS诱导的损失函数,揭示出两个关键项:(i)仅在预测正确时抑制过度自信的正则化项;(ii)在误分类情况下产生的误差放大项。后者迫使网络以不当的确定性强化错误预测,从而加剧表征坍缩。为解决这些缺陷,我们提出最大抑制(MaxSup)方法,该方法通过对top-1逻辑值(而非真实标签逻辑值)施加惩罚,实现对正确与错误预测的均匀正则化。通过大规模特征空间分析,我们证明MaxSup能够恢复类内差异并锐化类间边界。在大规模图像分类及多项下游任务上的实验证实,MaxSup是比LS更具鲁棒性的替代方案。代码发布于:https://github.com/ZhouYuxuanYX/Maximum-Suppression-Regularization

0
下载
关闭预览

相关内容

标签平滑,在AI领域多指利用软标签方法对标签进行平滑,以限制模型过拟合。
专知会员服务
38+阅读 · 2021年3月29日
【模型泛化教程】标签平滑与Keras, TensorFlow,和深度学习
专知会员服务
21+阅读 · 2019年12月31日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2021年3月29日
【模型泛化教程】标签平滑与Keras, TensorFlow,和深度学习
专知会员服务
21+阅读 · 2019年12月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员