In large-scale supervised learning, penalized logistic regression (PLR) effectively mitigates overfitting through regularization, yet its performance critically depends on robust variable selection. This paper demonstrates that label noise introduced during manual annotation, often dismissed as a mere artifact, can serve as a valuable source of information to enhance variable selection in PLR. We theoretically show that such noise, intrinsically linked to classification difficulty, helps refine the estimation of non-zero coefficients compared to using only ground truth labels, effectively turning a common imperfection into a useful information resource. To efficiently leverage this form of information fusion in large-scale settings where data cannot be stored on a single machine, we propose a novel partition insensitive parallel algorithm based on the alternating direction method of multipliers (ADMM). Our method ensures that the solution remains invariant to how data is distributed across workers, a key property for reproducible and stable distributed learning, while guaranteeing global convergence at a sublinear rate. Extensive experiments on multiple large-scale datasets show that the proposed approach consistently outperforms conventional variable selection techniques in both estimation accuracy and classification performance, affirming the value of intentionally fusing noisy manual labels into the learning process.


翻译:在大规模监督学习中,惩罚逻辑回归(PLR)通过正则化有效缓解过拟合,但其性能关键依赖于稳健的变量选择。本文证明,在人工标注过程中引入的标签噪声——常被视为单纯的人工产物——可作为增强PLR变量选择的有价值信息源。我们从理论上表明,与仅使用真实标签相比,这种与分类难度内在关联的噪声有助于细化非零系数的估计,从而将常见的缺陷转化为有效的信息资源。为在大规模数据无法存储于单机的场景中高效利用此类信息融合,我们提出一种基于交替方向乘子法(ADMM)的新型分区不敏感并行算法。该方法确保解对数据在计算节点间的分布方式保持不变,这是实现可复现且稳定分布式学习的关键特性,同时保证以次线性速率全局收敛。在多个大规模数据集上的大量实验表明,所提方法在估计精度和分类性能上均持续优于传统变量选择技术,证实了将噪声人工标签有意融合至学习过程的价值。

0
下载
关闭预览

相关内容

去噪:有监督、自监督和无监督,57页ppt
专知会员服务
59+阅读 · 2023年5月3日
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
【CVPR2022】带噪声标签的少样本学习
专知会员服务
42+阅读 · 2022年4月15日
专知会员服务
43+阅读 · 2021年8月30日
专知会员服务
31+阅读 · 2020年12月7日
专知会员服务
101+阅读 · 2020年7月20日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
相关资讯
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员