Learned multivector representations power modern search systems with strong retrieval effectiveness, but their real-world use is limited by the high cost of exhaustive token-level retrieval. Therefore, most systems adopt a \emph{gather-and-refine} strategy, where a lightweight gather phase selects candidates for full scoring. However, this approach requires expensive searches over large token-level indexes and often misses the documents that would rank highest under full similarity. In this paper, we reproduce several state-of-the-art multivector retrieval methods on two publicly available datasets, providing a clear picture of the current multivector retrieval field and observing the inefficiency of token-level gathering. Building on top of that, we show that replacing the token-level gather phase with a single-vector document retriever -- specifically, a learned sparse retriever (LSR) -- produces a smaller and more semantically coherent candidate set. This recasts the gather-and-refine pipeline into the well-established two-stage retrieval architecture. As retrieval latency decreases, query encoding with two neural encoders becomes the dominant computational bottleneck. To mitigate this, we integrate recent inference-free LSR methods, demonstrating that they preserve the retrieval effectiveness of the dual-encoder pipeline while substantially reducing query encoding time. Finally, we investigate multiple reranking configurations that balance efficiency, memory, and effectiveness, and we introduce two optimization techniques that prune low-quality candidates early. Empirical results show that these techniques improve retrieval efficiency by up to 1.8$\times$ with no loss in quality. Overall, our two-stage approach achieves over $24\times$ speedup over the state-of-the-art multivector retrieval systems, while maintaining comparable or superior retrieval quality.


翻译:学习型多向量表示凭借其强大的检索效能驱动着现代搜索系统,但其实际应用受限于详尽令牌级检索的高昂成本。因此,大多数系统采用一种“收集-精炼”策略,即通过轻量级的收集阶段筛选候选文档以进行完整评分。然而,这种方法需要在庞大的令牌级索引上进行昂贵的搜索,且常常遗漏在完整相似度计算下本应排名最高的文档。本文中,我们在两个公开数据集上复现了多种最先进的多向量检索方法,清晰描绘了当前多向量检索领域的现状,并观察到令牌级收集阶段的低效性。在此基础上,我们证明,用单向量文档检索器——具体而言,一种学习型稀疏检索器(LSR)——替代令牌级收集阶段,能够产生更小且语义更一致的候选集。这将“收集-精炼”流程重塑为成熟的两阶段检索架构。随着检索延迟降低,使用两个神经编码器进行查询编码成为主要计算瓶颈。为缓解此问题,我们集成了近期无需推理的LSR方法,证明它们在保持双编码器流程检索效能的同时,显著减少了查询编码时间。最后,我们研究了多种平衡效率、内存与效能的重排序配置,并引入了两种可提前剔除低质量候选的优化技术。实证结果表明,这些技术将检索效率提升高达1.8倍且不损失质量。总体而言,我们的两阶段方法相比最先进的多向量检索系统实现了超过24倍的加速,同时保持了相当甚至更优的检索质量。

0
下载
关闭预览

相关内容

【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
专知会员服务
41+阅读 · 2021年6月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员