Agent-Assisted Side-Channel Attacks on Non-Prefix KV Cache in RAG - 专知论文

会员服务 ·

0

cache · 评论员 · Continuity · 确切的 · 语言模型化 ·

Agent-Assisted Side-Channel Attacks on Non-Prefix KV Cache in RAG

翻译：暂无翻译

He Sun,Shinan Liu,Siyuan Ma,Junhao Li,Mingjun Xiao,Wenhao Jiang

from arxiv, 15 pages, 8 figures

Modern Large Language Model (LLM) serving engines increasingly rely on Retrieval-Augmented Generation (RAG) and non-prefix Key-Value (KV) cache fusion to accelerate long-context, multi-tenant inference. While existing KV cache side-channel attacks require strict linear prefix alignment--rendering them ineffective against real-world RAG queries that contain unique, user-specific private prefixes--we uncover a critical class of structural vulnerabilities inherent to chunk-aware memory scheduling. We demonstrate that the deterministic micro-architectural mechanisms used to align and fuse disjoint memory chunks inadvertently leak a continuous "Step-Wave" timing signature. Exploiting this physical observation, we introduce SpliceLeak, the first end-to-end side-channel attack targeting non-prefix KV cache fusion. SpliceLeak executes a systematic two-phase privacy breach: it first structurally fingerprints the exact length of hidden private prompts, and subsequently manipulates boundary collisions to extract exact semantic content token-by-token. Extensive evaluations on production-grade frameworks (vLLM integrated with LMCache) demonstrate that SpliceLeak achieves up to a 100% extraction success rate in bounded-entropy scenarios. Driven by a deterministic +104 ms hardware latency void, the attack requires as few as 63 requests per token, piercing through realistic continuous batching noise. To resolve the inherent conflict between memory deduplication and security, we propose SpliceDefense, a bipartite mitigation framework consisting of Quantized Chunk Padding (QCP) and Constant-Time Boundary Fusion (CTBF). Our evaluations confirm that SpliceDefense effectively flattens the side-channel signal (Delta TTFT ~ 0) with negligible throughput overhead, preserving the critical benefits of global cache sharing.

翻译：暂无翻译

0

相关内容

cache

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

WWW2025 | KAG：一种大模型知识增强生成框架

WWW2025 | KAG：一种大模型知识增强生成框架

专知会员服务

29+阅读 · 2025年7月22日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

GaN基HEMT器件陷阱及缺陷表征分析方法及相关退化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩与稀疏矩阵分离的视频合成孔径雷达 GMTI信号处理技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

大规模MIMO异构网络的干扰管理方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

非常规突发事件下港口-腹地物流运输网络弹性的测度与优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 6月23日

AutoSpec: Safety Rule Evolution for LLM Agents via Inductive Logic Programming

Arxiv

0+阅读 · 6月23日

A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees

Arxiv

0+阅读 · 6月22日

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

Arxiv

0+阅读 · 6月21日

Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment

Arxiv

0+阅读 · 6月21日

AIR: Improving Agent Safety through Incident Response

Arxiv

0+阅读 · 6月20日

Dissecting Agentic RAG: A Component Ablation for Multi-Hop QA with a Local 7B Model

Arxiv

0+阅读 · 6月19日

From RAG to Agentic RAG for Faithful Islamic Question Answering

Arxiv

0+阅读 · 6月19日

The Autonomy Tax: Defense Training Breaks LLM Agents

Arxiv

0+阅读 · 6月18日

CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference

Arxiv

0+阅读 · 6月18日

VIP会员

文章信息

相关主题

语言模型化

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

WWW2025 | KAG：一种大模型知识增强生成框架

WWW2025 | KAG：一种大模型知识增强生成框架

专知会员服务

29+阅读 · 2025年7月22日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

KG-Agent：面向KG复杂推理的高效自治代理框架

KG-Agent：面向KG复杂推理的高效自治代理框架

专知会员服务

35+阅读 · 2024年6月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

【泡泡点云时空】SqueezeSegV2：改进模型结构和无监督领域自适应的激光雷达点云道路目标分割方法

泡泡机器人SLAM

11+阅读 · 2019年9月12日

GitHub超9千星：一个API调用27个NLP预训练模型

GitHub超9千星：一个API调用27个NLP预训练模型

新智元

17+阅读 · 2019年7月22日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 6月23日

AutoSpec: Safety Rule Evolution for LLM Agents via Inductive Logic Programming

Arxiv

0+阅读 · 6月23日

A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees

Arxiv

0+阅读 · 6月22日

Skill-RAG: Failure-State-Aware Retrieval Augmentation via Hidden-State Probing and Skill Routing

Arxiv

0+阅读 · 6月21日

Five Queries Are Enough: Query-Efficient and Surrogate-Free Membership Inference Attacks on RAG via Entailment

Arxiv

0+阅读 · 6月21日

AIR: Improving Agent Safety through Incident Response

Arxiv

0+阅读 · 6月20日

Dissecting Agentic RAG: A Component Ablation for Multi-Hop QA with a Local 7B Model

Arxiv

0+阅读 · 6月19日

From RAG to Agentic RAG for Faithful Islamic Question Answering

Arxiv

0+阅读 · 6月19日

The Autonomy Tax: Defense Training Breaks LLM Agents

Arxiv

0+阅读 · 6月18日

CacheWeaver: Cache-Aware Evidence Ordering for Efficient Grounded RAG Inference

Arxiv

0+阅读 · 6月18日

相关基金

GaN基HEMT器件陷阱及缺陷表征分析方法及相关退化机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩与稀疏矩阵分离的视频合成孔径雷达 GMTI信号处理技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

大规模MIMO异构网络的干扰管理方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

非常规突发事件下港口-腹地物流运输网络弹性的测度与优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员