We study the problem of learning binary classifiers from positive and unlabeled data when the unlabeled data distribution is shifted, which we call Positive and Imperfect Unlabeled (PIU) Learning. In the absence of covariate shifts, i.e., with perfect unlabeled data, Denis (1998) reduced this problem to learning under Massart noise; however, that reduction fails under even slight shifts. Our main results on PIU learning are the characterizations of the sample complexity of PIU learning and a computationally and sample-efficient algorithm achieving a misclassification error $\varepsilon$. We further show that our results lead to new algorithms for several related problems. 1. Learning from smooth distributions: We give algorithms that learn interesting concept classes from only positive samples under smooth feature distributions, bypassing known existing impossibility results and contributing to recent advances in smoothened learning (Haghtalab et al, J.ACM'24) (Chandrasekaran et al., COLT'24). 2. Learning with a list of unlabeled distributions: We design new algorithms that apply to a broad class of concept classes under the assumption that we are given a list of unlabeled distributions, one of which--unknown to the learner--is $O(1)$-close to the true feature distribution. 3. Estimation in the presence of unknown truncation: We give the first polynomial sample and time algorithm for estimating the parameters of an exponential family distribution from samples truncated to an unknown set approximable by polynomials in $L_1$-norm. This improves the algorithm by Lee et al. (FOCS'24) that requires approximation in $L_2$-norm. 4. Detecting truncation: We present new algorithms for detecting whether given samples have been truncated (or not) for a broad class of non-product distributions, including non-product distributions, improving the algorithm by De et al. (STOC'24).


翻译:本文研究从正例与无标签数据中学习二分类器的问题,其中无标签数据分布存在偏移,我们称之为正例与不完美无标签(PIU)学习。在不存在协变量偏移(即无标签数据完美)的情况下,Denis(1998)将该问题简化为在Massart噪声下的学习;然而,即使存在轻微分布偏移,该简化方法即告失效。我们在PIU学习方面的主要贡献包括:刻画了PIU学习的样本复杂度,并提出了一种计算与样本高效的算法,可实现$\varepsilon$级别的误分类误差。我们进一步证明,我们的研究成果催生了若干相关问题的新算法。1. 从平滑分布中学习:我们提出了仅利用正例样本即可从平滑特征分布中学习有意义概念类的算法,这绕过了已知的现有不可能性结果,并为平滑学习领域的最新进展(Haghtalab等人,J.ACM'24)(Chandrasekaran等人,COLT'24)作出了贡献。2. 基于无标签分布列表的学习:我们设计了适用于广泛概念类的新算法,其前提是给定一个无标签分布列表,其中存在一个(学习者未知的)分布与真实特征分布保持$O(1)$近似。3. 未知截断下的参数估计:我们提出了首个多项式样本与时间复杂度的算法,用于从被未知集合截断的样本中估计指数族分布的参数,该截断集合在$L_1$范数下可由多项式近似。这改进了Lee等人(FOCS'24)提出的需要$L_2$范数近似的算法。4. 截断检测:针对包括非乘积分布在内的广泛非乘积分布类别,我们提出了新的算法来检测给定样本是否经过截断,从而改进了De等人(STOC'24)的算法。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员