General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.


翻译:通用开放域稠密检索系统通常使用大规模、多样化的语料库和搜索任务进行训练。应如何对这些不同的语料库和任务进行采样以优化训练?传统方法采用均匀采样、按实例数量比例采样或依赖专家人工监督。众所周知,训练数据采样策略会显著影响模型性能,然而在嵌入模型背景下如何寻找最优策略尚未得到充分研究。我们提出Inf-DDS——一种新型强化学习驱动的采样框架,该框架通过基于影响力的奖励信号自适应调整训练数据集权重,且在GPU消耗方面更为轻量。我们的技术通过迭代优化采样策略,优先选择能最大化目标开发集模型性能的数据集。我们在广泛的文本检索任务上评估了该采样策略的有效性,实验表明相较于现有基于梯度的采样方法,本方法在检索性能上取得显著提升且具有更优的适应能力,同时GPU计算成本降低1.5至4倍。在训练多语言bge-m3模型时,我们的采样策略实现了NDCG@10指标5.03的绝对提升;在训练all-MiniLM-L6-v2模型时,即使从专家分配权重的大型训练数据集池开始训练,仍获得NDCG@10指标0.94的绝对提升。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2021年9月15日
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
专知会员服务
17+阅读 · 2021年4月16日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
109+阅读 · 2019年6月21日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员