We demonstrate that learning procedures that rely on aggregated labels, e.g., label information distilled from noisy responses, enjoy robustness properties impossible without data cleaning. This robustness appears in several ways. In the context of risk consistency -- when one takes the standard approach in machine learning of minimizing a surrogate (typically convex) loss in place of a desired task loss (such as the zero-one mis-classification error) -- procedures using label aggregation obtain stronger consistency guarantees than those even possible using raw labels. And while classical statistical scenarios of fitting perfectly-specified models suggest that incorporating all possible information -- modeling uncertainty in labels -- is statistically efficient, consistency fails for ``standard'' approaches as soon as a loss to be minimized is even slightly mis-specified. Yet procedures leveraging aggregated information still converge to optimal classifiers, highlighting how incorporating a fuller view of the data analysis pipeline, from collection to model-fitting to prediction time, can yield a more robust methodology by refining noisy signals.


翻译:我们证明,依赖于聚合标签(例如从噪声响应中提炼出的标签信息)的学习过程具有未经数据清洗则无法实现的鲁棒性。这种鲁棒性体现在多个方面。在风险一致性背景下——当采用机器学习中最小化代理损失(通常为凸损失)以替代期望任务损失(如0-1分类错误)的标准方法时——使用标签聚合的方法能获得比使用原始标签更强的一致性保证,后者甚至无法达到同等保证水平。尽管经典统计场景中拟合完全指定模型的理论表明,纳入所有可能信息(包括标签不确定性建模)具有统计效率,但一旦待最小化的损失函数存在轻微误设定,“标准”方法的一致性就会失效。然而,利用聚合信息的方法仍能收敛至最优分类器,这凸显了通过整合从数据收集到模型拟合再到预测阶段的全流程视角,能够通过精炼噪声信号构建更具鲁棒性的方法论。

0
下载
关闭预览

相关内容

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
面向图像分类的对抗鲁棒性评估综述
专知会员服务
59+阅读 · 2022年10月15日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月6日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员