Current Retrieval-Augmented Generation (RAG) systems typically employ a traditional two-stage pipeline: an embedding model for initial retrieval followed by a reranker for refinement. However, this paradigm suffers from significant inefficiency due to the lack of shared information between stages, leading to substantial redundant computation. To address this limitation, we propose \textbf{State-Centric Retrieval}, a unified retrieval paradigm that utilizes "states" as a bridge to connect embedding models and rerankers. First, we perform state representation learning by fine-tuning an RWKV-based LLM, transforming it into \textbf{EmbeddingRWKV}, a unified model that serves as both an embedding model and a state backbone for extracting compact, reusable states. Building upon these reusable states, we further design a state-based reranker to fully leverage precomputed information. During reranking, the model processes only query tokens, decoupling inference cost from document length and yielding a 5.4$\times$--44.8$\times$ speedup. Furthermore, we observe that retaining all intermediate layer states is unnecessary; with a uniform layer selection strategy, our model maintains 98.62\% of full-model performance using only 25\% of the layers. Extensive experiments demonstrate that State-Centric Retrieval achieves high-quality retrieval and reranking results while significantly enhancing overall system efficiency. Code is available at \href{https://github.com/howard-hou/EmbeddingRWKV}{our GitHub repository}.


翻译:当前检索增强生成(RAG)系统通常采用传统的两阶段流程:首先使用嵌入模型进行初步检索,随后通过重排序器进行精炼。然而,由于两个阶段之间缺乏信息共享,该范式存在显著的效率低下问题,导致大量冗余计算。为克服这一局限,我们提出**状态中心化检索**,这是一种利用“状态”作为桥梁连接嵌入模型与重排序器的统一检索范式。首先,我们通过对基于RWKV的大语言模型进行微调来实现状态表示学习,将其转化为**EmbeddingRWKV**——一个既可作为嵌入模型,又可作为状态骨干网络以提取紧凑、可复用状态的统一模型。基于这些可复用状态,我们进一步设计了基于状态的重排序器,以充分利用预计算信息。在重排序过程中,模型仅需处理查询词元,使推理成本与文档长度解耦,从而实现5.4倍至44.8倍的加速。此外,我们发现保留所有中间层状态并非必要;通过采用均匀层选择策略,我们的模型仅使用25%的层数即可保持全模型98.62%的性能表现。大量实验表明,状态中心化检索在显著提升系统整体效率的同时,能够实现高质量的检索与重排序结果。代码发布于\href{https://github.com/howard-hou/EmbeddingRWKV}{我们的GitHub仓库}。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
16+阅读 · 2025年7月14日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
100+阅读 · 2024年5月13日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
最新《动态网络嵌入》综述论文,25页pdf
专知
37+阅读 · 2020年6月17日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员