Learned sparse retrieval (LSR) is a popular method for first-stage retrieval because it combines the semantic matching of language models with efficient CPU-friendly algorithms. Previous work aggregates blocks into "superblocks" to quickly skip the visitation of blocks during query processing by using an advanced pruning heuristic. This paper proposes a simple and effective superblock pruning scheme that reduces the overhead of superblock score computation while preserving competitive relevance. It combines this scheme with a compact index structure and a robust zero-shot configuration that is effective across LSR models and multiple datasets. This paper provides an analytical justification and evaluation on the MS MARCO and BEIR datasets, demonstrating that the proposed scheme can be a strong alternative for efficient sparse retrieval.


翻译:学习型稀疏检索(LSR)因其结合了语言模型的语义匹配能力与高效的CPU友好算法,已成为首阶段检索的常用方法。先前研究通过高级剪枝启发式方法将数据块聚合成“超块”,以在查询处理过程中快速跳过对数据块的访问。本文提出了一种简单有效的超块剪枝方案,在保持竞争力相关性的同时降低了超块分数计算的开销。该方案与紧凑的索引结构及鲁棒的零样本配置相结合,适用于多种LSR模型与数据集。本文通过理论分析及在MS MARCO和BEIR数据集上的评估证明,所提方案可作为高效稀疏检索的有力替代方案。

0
下载
关闭预览

相关内容

《机器学习超参数优化》最新综述
专知会员服务
39+阅读 · 2024年10月31日
基于深度学习的视频超分辨率重构进展综述
专知会员服务
19+阅读 · 2022年3月7日
【MIT博士论文】数据高效强化学习,176页pdf
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《机器学习超参数优化》最新综述
专知会员服务
39+阅读 · 2024年10月31日
基于深度学习的视频超分辨率重构进展综述
专知会员服务
19+阅读 · 2022年3月7日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员