In many modern machine learning pipelines, abundant pretrained representations serve as noisy proxy covariates, while task-specific labels remain scarce. We study semi-supervised regression in this setting, and propose a simple two stage estimator that learns kernel eigenfeatures from all proxy covariates and fits a ridge predictor on labeled data. We derive finite sample bounds showing that fast labeled sample rates are recovered when proxy perturbation is controlled and unlabeled proxy covariates are sufficiently abundant. We also show that distribution regression is a direct special case, with analogous guarantees when the finite bag size is large enough. Experiments show consistent gains over supervised and semi-supervised baselines, especially in low label regimes.


翻译:在许多现代机器学习流程中,丰富的预训练表示充当了带噪声的代理协变量,而特定任务的标签却仍然稀缺。我们在此背景下研究半监督回归问题,并提出一种简单的两阶段估计器:先从所有代理协变量中学习核本征特征,再在带标签数据上拟合岭回归预测器。我们推导了有限样本界,表明当代理扰动得到控制且无标签代理协变量足够丰富时,标签样本的快速收敛率可被恢复。我们还指出,分布回归是这一框架的直接特例,当有限包容量足够大时可获得类似的保证。实验结果表明,该方法在监督学习和半监督学习基线上均持续取得改进,尤其在低标签率场景下表现突出。

0
下载
关闭预览

相关内容

监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
专知会员服务
38+阅读 · 2021年3月29日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
71+阅读 · 2019年10月18日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
半监督深度学习小结:类协同训练和一致性正则化
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员