Neural ranking models (NRMs) have demonstrated effective performance in several information retrieval (IR) tasks. However, training NRMs often requires large-scale training data, which is difficult and expensive to obtain. To address this issue, one can train NRMs via weak supervision, where a large dataset is automatically generated using an existing ranking model (called the weak labeler) for training NRMs. Weakly supervised NRMs can generalize from the observed data and significantly outperform the weak labeler. This paper generalizes this idea through an iterative re-labeling process, demonstrating that weakly supervised models can iteratively play the role of weak labeler and significantly improve ranking performance without using manually labeled data. The proposed Generalized Weak Supervision (GWS) solution is generic and orthogonal to the ranking model architecture. This paper offers four implementations of GWS: self-labeling, cross-labeling, joint cross- and self-labeling, and greedy multi-labeling. GWS also benefits from a query importance weighting mechanism based on query performance prediction methods to reduce noise in the generated training data. We further draw a theoretical connection between self-labeling and Expectation-Maximization. Our experiments on two passage retrieval benchmarks suggest that all implementations of GWS lead to substantial improvements compared to weak supervision in all cases.


翻译:神经排序模型(Neural Ranking Models, NRMs)已在多项信息检索(Information Retrieval, IR)任务中展现出优异性能。然而,训练NRMs通常需要大规模训练数据,获取此类数据既困难且成本高昂。为解决这一问题,可通过弱监督方式训练NRMs,即利用现有排序模型(称为弱标注器)自动生成大规模数据集用于NRMs训练。弱监督训练的NRMs能够从观测数据中泛化,并显著超越弱标注器的性能。本文通过迭代重标注过程推广了这一思想,证明弱监督模型可迭代扮演弱标注器角色,在无需人工标注数据的情况下显著提升排序性能。所提出的广义弱监督(Generalized Weak Supervision, GWS)方案具有通用性,且与排序模型架构无关。本文给出了GWS的四种实现方式:自标注、交叉标注、联合交叉与自标注、以及贪心多标注。GWS还基于查询性能预测方法,利用查询重要性加权机制来减少生成训练数据中的噪声。我们进一步在理论上建立了自标注与期望最大化(Expectation-Maximization)之间的联系。在两个段落检索基准数据集上的实验表明,GWS的所有实现方式在所有情况下相比弱监督均能带来显著性能提升。

0
下载
关闭预览

相关内容

【AAAI 2022】一致性信息瓶颈在域泛化中的应用
专知会员服务
26+阅读 · 2022年1月15日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
专知会员服务
61+阅读 · 2020年3月19日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
167+阅读 · 2020年3月18日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
浅聊对比学习(Contrastive Learning)
极市平台
3+阅读 · 2022年7月26日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
1+阅读 · 2022年6月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
16+阅读 · 2021年11月27日
Arxiv
27+阅读 · 2021年11月11日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
4+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
8+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关资讯
浅聊对比学习(Contrastive Learning)
极市平台
3+阅读 · 2022年7月26日
浅聊对比学习(Contrastive Learning)第一弹
PaperWeekly
1+阅读 · 2022年6月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员