Positive-unlabeled (PU) learning addresses binary classification when only a set of labeled positives is available alongside a pool of unlabeled samples drawn from a mixture of positives and negatives. Existing PU methods typically require dataset-specific training or iterative optimization, which limits their applicability when many tasks must be solved quickly or with little tuning. We introduce PUICL, a pretrained transformer that solves PU classification entirely through in-context learning. PUICL is pretrained on synthetic PU datasets generated from randomly instantiated structural causal models, exposing it to a wide range of feature-label relationships and class-prior configurations. At inference time, PUICL receives the labeled positives and the unlabeled samples as a single input and returns class probabilities for the unlabeled rows in one forward pass, with no gradient updates or per-task fitting. On 20 semi-synthetic PU benchmarks derived from the UCI Machine Learning Repository, OpenML, and scikit-learn, PUICL outperforms four standard PU learning baselines in average AUC and accuracy, and is competitive on F1-score. These results show that the in-context learning paradigm extends naturally beyond fully supervised tabular prediction to the semi-supervised PU setting.


翻译:正无标签学习解决的是仅有一组标注的正例样本与一个由正负例混合构成的无标签样本集时的二分类问题。现有正无标签学习方法通常需要针对特定数据集进行训练或迭代优化,这限制了其快速解决大量任务或需要较少调参场景下的适用性。我们提出PUICL,一种通过上下文学习完全解决正无标签分类问题的预训练Transformer模型。PUICL基于随机实例化结构因果模型生成的合成正无标签数据集进行预训练,使其暴露于广泛的特征-标签关系与先验类别配置中。在推理阶段,PUICL将标注正例与无标签样本作为单一输入,通过一次前向传播直接输出无标签样本的类别概率,无需梯度更新或每个任务的独立拟合。在源自UCI机器学习库、OpenML和scikit-learn的20个半合成正无标签基准测试中,PUICL在平均AUC和准确率上超越四种标准正无标签学习基线,并在F1分数上具有竞争力。这些结果表明,上下文学习范式能够自然地从全监督表格预测扩展至半监督正无标签场景。

0
下载
关闭预览

相关内容

《不完全多标签学习综述:最新进展与未来趋势》
专知会员服务
26+阅读 · 2024年6月11日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
IEEE TPAMI | 基于标注偏差估计的实例相关PU学习
专知会员服务
12+阅读 · 2021年10月23日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
90+阅读 · 2020年7月14日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月4日
Arxiv
0+阅读 · 5月11日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员