In many classification problems, the costs of misclassifying observations from different classes can be highly unequal. The Neyman-Pearson multiclass classification (NPMC) framework addresses this issue by minimizing a weighted misclassification risk while imposing upper bounds on class-specific error probabilities. Existing NPMC methods typically assume that training labels are correctly observed. In practice, however, labels are often corrupted due to measurement error or annotation, and the effect of such label noise on NPMC procedures remains largely unexplored. We study the NPMC problem when only noisy labels are available in the training data. We propose an empirical likelihood (EL)-based method that relates the distributions of noisy and true labels through an exponential tilting density ratio model. The resulting maximum EL estimators recover the class proportions and posterior probabilities of the clean labels required for error control. We establish consistency, asymptotic normality, and optimal convergence rates for these estimators. Under mild conditions, the resulting classifier satisfies NP oracle inequalities with respect to the true labels asymptotically. An expectation-maximization algorithm computes the maximum EL estimators. Simulations show that the proposed method performs comparably to the oracle classifier under clean labels and substantially improves over procedures that ignore label noise.


翻译:在许多分类问题中,误分类不同类别观测数据的代价可能高度不均衡。Neyman-Pearson多类分类(NPMC)框架通过最小化加权误分类风险并同时对各类别的错误概率施加上限来解决这一问题。现有的NPMC方法通常假设训练标签被正确观测。然而在实践中,由于测量误差或标注问题,标签常常受到污染,而此类标签噪声对NPMC过程的影响尚未得到充分研究。本文研究了训练数据仅包含噪声标签时的NPMC问题。我们提出一种基于经验似然(EL)的方法,通过指数倾斜密度比模型建立噪声标签与真实标签分布之间的联系。由此得到的最大经验似然估计量能够恢复用于误差控制的干净标签的类别比例和后验概率。我们证明了这些估计量的一致性、渐近正态性以及最优收敛速度。在温和条件下,所得分类器在渐近意义上满足关于真实标签的NP最优性不等式的约束。通过期望最大化算法计算最大经验似然估计量。仿真实验表明,所提方法在干净标签下与基准分类器性能相当,且显著优于忽略标签噪声的方法。

0
下载
关闭预览

相关内容

监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
半监督深度学习小结:类协同训练和一致性正则化
手把手教你用Keras进行多标签分类(附代码)
数据派THU
11+阅读 · 2018年7月17日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
注意力图神经网络的多标签文本分类
专知会员服务
112+阅读 · 2020年3月28日
相关资讯
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
半监督深度学习小结:类协同训练和一致性正则化
手把手教你用Keras进行多标签分类(附代码)
数据派THU
11+阅读 · 2018年7月17日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员