Dense vector retrieval is essential for semantic queries within Natural Language Processing, particularly in knowledge-intensive applications like Retrieval-Augmented Generation (RAG). The ability to retrieve vectors that satisfy both similarity and diversity substantially enhances system performance. Although the Maximal Marginal Relevance (MMR) algorithm is widely used to balance these objectives, its reliance on a manually tuned parameter leads to optimization fluctuations and unpredictable retrieval results. Furthermore, there is a lack of sufficient theoretical analysis on the joint optimization of similarity and diversity in vector retrieval. To address these challenges, this paper introduces a novel approach that characterizes both constraints simultaneously by maximizing the similarity between the query vector and the sum of the selected candidate vectors. We formally define this optimization problem, Vectors Retrieval with Similarity and Diversity (VRSD) , and prove that it is NP-complete, establishing a rigorous theoretical bound on the inherent difficulty of this dual-objective retrieval. Subsequently, we present a parameter-free heuristic algorithm to solve VRSD. Extensive evaluations on multiple scientific QA datasets , incorporating both objective geometric metrics and LLM-simulated subjective assessments, demonstrate that our VRSD heuristic consistently outperforms established baselines, including MMR and Determinantal Point Processes (k-DPP).


翻译:密集向量检索对于自然语言处理中的语义查询至关重要,尤其在检索增强生成(RAG)等知识密集型应用中。检索出同时满足相似性与多样性要求的向量能显著提升系统性能。尽管最大边际相关性(MMR)算法被广泛用于平衡这两个目标,但其对人工调谐参数的依赖会导致优化波动和不可预测的检索结果。此外,目前对向量检索中相似性与多样性联合优化的理论分析尚不充分。为应对这些挑战,本文提出一种新方法,通过最大化查询向量与所选候选向量之和的相似性来同时刻画这两个约束。我们正式定义了该优化问题——兼顾相似性与多样性的向量检索(VRSD),并证明其为NP完全问题,从而为这一双目标检索的内在难度建立了严格的理论界限。随后,我们提出了一种无参数启发式算法来求解VRSD。在多个科学问答数据集上进行广泛评估,结合客观几何度量与LLM模拟的主观评估,结果表明我们的VRSD启发式算法持续优于现有基线方法,包括MMR和行列式点过程(k-DPP)。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
相似词查询:玩转腾讯 AI Lab 中文词向量
AINLP
11+阅读 · 2019年2月25日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员