KV-Cache块联合编码以实现可扩展的大语言模型服务 (Joint Encoding of KV-Cache Blocks for Scalable LLM Serving) - 专知论文

会员服务 ·

0

cache · 联合编码 · 语言模型 · 模型服务 · 内存 ·

Joint Encoding of KV-Cache Blocks for Scalable LLM Serving

翻译：KV-Cache块联合编码以实现可扩展的大语言模型服务

Joseph Kampeas,Emir Haleva

from arxiv, 12 pages, 16 figures, 2 tables

Modern large language models (LLMs) drive interactive AI systems but are bottlenecked by the memory-heavy growth of key-value (KV) caches, which limits real-time throughput under concurrent loads. Existing KV-cache compression methods rely on rigid heuristics, disrupt tensor layouts, or require specialized compute, hindering scalability and deployment. We propose joint encoding of KV-cache blocks, which fuses similar blocks across requests and input chunks into shared representations while preserving standard cache structure. This alleviates the KV-cache memory bottleneck, supporting high-concurrency serving without specialized hardware. Theoretically, we analyze the rate-distortion tradeoff of fused cache blocks under a Poisson process model. Empirically, our method achieves up to 4.38 $\times$ KV-cache compression with negligible accuracy loss across diverse LLMs and benchmarks, outperforming recent structured and adaptive compression baselines. In real LLM serving, joint encoding improves the token throughput by $\sim$40\% on a single-machine vLLM benchmark, demonstrating substantial gains in inference throughput. Code is available at https://github.com/sef1/kv_fast_fusion kv_joint_encoding.

翻译：现代大语言模型驱动着交互式人工智能系统，但其性能受限于键值缓存内存密集型增长带来的瓶颈，这制约了并发负载下的实时吞吐量。现有的KV-cache压缩方法依赖僵化的启发式策略、破坏张量布局或需要专用计算单元，阻碍了可扩展性与实际部署。我们提出KV-cache块联合编码方法，该方法将跨请求和输入块的相似缓存块融合为共享表示，同时保持标准缓存结构。这缓解了KV-cache内存瓶颈，可在无需专用硬件的条件下支持高并发服务。理论上，我们基于泊松过程模型分析了融合缓存块的率失真权衡关系。实验表明，本方法在多样化大语言模型与基准测试中实现了高达4.38倍的KV-cache压缩率，且精度损失可忽略不计，其性能优于近期提出的结构化与自适应压缩基线方法。在实际大语言模型服务中，联合编码在单机vLLM基准测试中使令牌吞吐量提升约40%，显著提高了推理吞吐量。代码发布于https://github.com/sef1/kv_fast_fusion kv_joint_encoding。

0

相关内容

cache

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

21+阅读 · 2025年10月31日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

38+阅读 · 2025年5月15日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

48+阅读 · 2024年12月13日

不可错过！李磊老师CMU2025春季课程《大型语言模型》，学习设计和实现LLM系统的核心技能

不可错过！李磊老师CMU2025春季课程《大型语言模型》，学习设计和实现LLM系统的核心技能

专知会员服务

35+阅读 · 2024年11月24日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

专知会员服务

74+阅读 · 2023年8月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

专知

16+阅读 · 2017年11月8日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs

Arxiv

0+阅读 · 2月5日

DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月3日

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

Arxiv

0+阅读 · 2月2日

Competitive Non-Clairvoyant KV-Cache Scheduling for LLM Inference

Arxiv

0+阅读 · 1月30日

Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models

Arxiv

0+阅读 · 1月28日

Reconstructing KV Caches with Cross-layer Fusion For Enhanced Transformers

Arxiv

0+阅读 · 1月27日

Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

Arxiv

0+阅读 · 1月25日

GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models

Arxiv

0+阅读 · 1月8日

BitDecoding: Unlocking Tensor Cores for Long-Context LLMs with Low-Bit KV Cache

Arxiv

0+阅读 · 1月5日

KVCrush: Key value cache size-reduction using similarity in head-behaviour

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

21+阅读 · 2025年10月31日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

38+阅读 · 2025年5月15日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

48+阅读 · 2024年12月13日

不可错过！李磊老师CMU2025春季课程《大型语言模型》，学习设计和实现LLM系统的核心技能

不可错过！李磊老师CMU2025春季课程《大型语言模型》，学习设计和实现LLM系统的核心技能

专知会员服务

35+阅读 · 2024年11月24日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

129+阅读 · 2024年6月13日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

专知会员服务

74+阅读 · 2023年8月27日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

专知

16+阅读 · 2017年11月8日

相关论文

KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs

Arxiv

0+阅读 · 2月5日

DynSplit-KV: Dynamic Semantic Splitting for KVCache Compression in Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月3日

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

Arxiv

0+阅读 · 2月2日

Competitive Non-Clairvoyant KV-Cache Scheduling for LLM Inference

Arxiv

0+阅读 · 1月30日

Mixing Importance with Diversity: Joint Optimization for KV Cache Compression in Large Vision-Language Models

Arxiv

0+阅读 · 1月28日

Reconstructing KV Caches with Cross-layer Fusion For Enhanced Transformers

Arxiv

0+阅读 · 1月27日

Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

Arxiv

0+阅读 · 1月25日

GPU-Accelerated INT8 Quantization for KV Cache Compression in Large Language Models

Arxiv

0+阅读 · 1月8日

BitDecoding: Unlocking Tensor Cores for Long-Context LLMs with Low-Bit KV Cache

Arxiv

0+阅读 · 1月5日

KVCrush: Key value cache size-reduction using similarity in head-behaviour

Arxiv

0+阅读 · 1月5日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员