Label noise - incorrect labels assigned to observations - can substantially degrade the performance of supervised classifiers. This paper proposes a label noise cleaning method based on Bernoulli random sampling. We show that the mean label noise levels of subsets generated by Bernoulli random sampling containing a given observation are identically distributed for all clean observations, and identically distributed, with a different distribution, for all noisy observations. Although the mean label noise levels are not independent across observations, by introducing an independent coupling we further prove that they converge to a mixture of two well-separated distributions corresponding to clean and noisy observations. By establishing a linear model between cross-validated classification errors and label noise levels, we are able to approximate this mixture distribution and thereby separate clean and noisy observations without any prior label information. The proposed method is classifier-agnostic, theoretically justified, and demonstrates strong performance on both simulated and real datasets.


翻译:标签噪声——即分配给观测样本的错误标签——会显著降低监督分类器的性能。本文提出一种基于伯努利随机采样的标签噪声清洗方法。我们证明,对于所有干净样本,通过伯努利随机采样生成的包含给定观测样本的子集,其平均标签噪声水平具有相同分布;而对于所有噪声样本,其平均标签噪声水平虽具有相同分布,但属于不同的分布族。尽管不同观测样本间的平均标签噪声水平并非相互独立,但通过引入独立耦合,我们进一步证明它们会收敛到对应于干净样本与噪声样本的两个充分分离的混合分布。通过建立交叉验证分类误差与标签噪声水平之间的线性模型,我们能够近似该混合分布,从而在无需任何先验标签信息的情况下分离干净样本与噪声样本。所提方法具有分类器无关性、理论可解释性,并在模拟和真实数据集上均表现出优越性能。

0
下载
关闭预览

相关内容

去噪:有监督、自监督和无监督,57页ppt
专知会员服务
59+阅读 · 2023年5月3日
【CVPR2023】带有噪声标签的孪生对比学习
专知会员服务
33+阅读 · 2023年3月16日
【CVPR2022】带噪声标签的少样本学习
专知会员服务
42+阅读 · 2022年4月15日
专知会员服务
43+阅读 · 2021年8月30日
专知会员服务
31+阅读 · 2020年12月7日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
python代码实现图片噪声去除
凡人机器学习
13+阅读 · 2018年5月18日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型平台在国防情报应用中的对比
专知会员服务
3+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
4+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
python代码实现图片噪声去除
凡人机器学习
13+阅读 · 2018年5月18日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员