SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance - 专知论文

会员服务 ·

0

Attention · SIFT · 得分 · 不变 · FAST ·

SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance

翻译：暂无翻译

Rya Sanovar,Srikant Bharadwaj,Hritvik Taneja,Moinuddin Qureshi

Retrieval-Augmented Generation (RAG) injects LLM queries with relevant documents to improve response quality. This injection increases prompt length and slows time to first token (TTFT). Unlike standard queries, RAG queries have a unique property of context reuse where the same documents recur across user queries. Thus, fully recomputing documents for every RAG query does redundant compute and increases TTFT. Prior works precompute KV tensors of RAG documents offline and coarsely recompute some tokens during online prefill. However, such KV reuse is often slower than full recomputation on modern GPUs due to high-latency disk transfers. Further, such a coarse-grained recomputation degrades accuracy. To address these limitations, this paper proposes SIFT: Selective-Index For Fast Compute of RAG Prefill by Exploiting Attention Invariance. SIFT processes documents offline and extracts fine-grained locations of high attention scores for each document. Next, we identify the following attention invariance insights that enable us to exploit the extracted locations during runtime: (1) Local-Attention Invariance: The location of high attention scores within a document remain invariant to surrounding documents. This helps us predict the location of high scores where the document attends to itself. (2) Cross-Attention Consistency: Keys with high intra-document attention also attract cross-attention from subsequent documents. This helps us predict the location of high scores where the document attends to future documents. Critically, SIFT stores no KV data and only stores locations of high scores in the form of two compact bit vectors. SIFT's storage is up to 24,000x smaller than KV tensors, obviating costly disk transfers. During prefill, SIFT computes the attention only for the marked locations and improves TTFT by 1.71x while holding accuracy within 1% of full recompute.

翻译：暂无翻译

0

相关内容

Attention

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【SIGIR2025教程】动态与参数化检索增强生成

【SIGIR2025教程】动态与参数化检索增强生成

专知会员服务

17+阅读 · 2025年7月14日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

高精度全速域拉格朗日-重映算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference

Arxiv

0+阅读 · 6月18日

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

Arxiv

0+阅读 · 6月16日

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Arxiv

0+阅读 · 6月16日

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

Arxiv

0+阅读 · 6月16日

TA-RAG: Tone-Aware Retrieval-Augmented Generation for Peer-Support Health Communication

Arxiv

0+阅读 · 6月11日

CacheRAG: A Semantic Caching System for Retrieval-Augmented Generation in Knowledge Graph Question Answering

Arxiv

0+阅读 · 6月8日

An Efficient and Privacy-Preserving Architecture for Cross-Institutional Collaborative RAG

Arxiv

0+阅读 · 5月25日

Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)

Arxiv

0+阅读 · 5月12日

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

Arxiv

0+阅读 · 5月11日

SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【SIGIR2025教程】动态与参数化检索增强生成

【SIGIR2025教程】动态与参数化检索增强生成

专知会员服务

17+阅读 · 2025年7月14日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

【论文推荐】最新十篇推荐系统相关论文—内容感知、图卷积神经网络、博弈论、个性化排序、元学习、xDeepFM

专知

21+阅读 · 2018年6月18日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

「目标检测算法」连连看：从 Faster R-CNN 、 R-FCN 到 FPN

AI研习社

10+阅读 · 2018年5月12日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

相关论文

CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference

Arxiv

0+阅读 · 6月18日

MCompassRAG: Topic Metadata as a Semantic Compass for Paragraph-Level Retrieval

Arxiv

0+阅读 · 6月16日

SproutRAG: Attention-Guided Tree Search with Progressive Embeddings for Long-Document RAG

Arxiv

0+阅读 · 6月16日

Conflict-Aware Retriever Editing for Knowledge Injection Attacks on LLM-Based RAG Systems

Arxiv

0+阅读 · 6月16日

TA-RAG: Tone-Aware Retrieval-Augmented Generation for Peer-Support Health Communication

Arxiv

0+阅读 · 6月11日

CacheRAG: A Semantic Caching System for Retrieval-Augmented Generation in Knowledge Graph Question Answering

Arxiv

0+阅读 · 6月8日

An Efficient and Privacy-Preserving Architecture for Cross-Institutional Collaborative RAG

Arxiv

0+阅读 · 5月25日

Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)

Arxiv

0+阅读 · 5月12日

Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection

Arxiv

0+阅读 · 5月11日

SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月5日

相关基金

基于LiDAR数据的非栅格化道路矢量提取及融合高分影像的路网探测与优化

国家自然科学基金

0+阅读 · 2015年12月31日

高精度全速域拉格朗日-重映算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

树上生灭过程收敛速度及p-Laplacian特征值估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员