The key-value (KV) cache has become the dominant contributor to memory consumption in large language model (LLM) inference. Although offloading KVCache from GPU high-bandwidth memory (HBM) to CPU DRAM alleviates device memory pressure, DRAM remains capacity-limited and costly for large, persistent workloads. Solid-state drives (SSDs) provide a cost-effective alternative, but naive SSD-based paging is fundamentally bandwidth-bound due to limited PCIe throughput and per-device bandwidth constraints. In this paper, we observe that KVCache activations in real-world workloads exhibit strong and stable correlations. We term this phenomenon KVCache Co-Activation, where accessing a KV entry is often accompanied by a stable and recurring set of other KV entries. Leveraging this property, we present Swarm, an SSD-based KVCache offloading system that converts bandwidth-bound single-device access into parallel I/O across multiple SSDs. Specifically, Swarm clusters co-activated KV entries offline and distributes the resulting clusters across SSDs using graph-based placement with selective replication to maximize parallel I/O bandwidth. At runtime, Swarm performs load-balanced cluster retrieval and dynamically adapts clustering and caching decisions to sustain high bandwidth utilization under evolving access patterns. Evaluations show that Swarm reduces I/O time by 2.41x and improves effective bandwidth utilization by 2.72x.


翻译:摘要:键值(KV)缓存已成为大语言模型(LLM)推理中内存消耗的主导因素。尽管将KV缓存从GPU高带宽内存(HBM)卸载到CPU DRAM可缓解设备内存压力,但对于大规模持久化工作负载而言,DRAM仍存在容量限制且成本高昂。固态硬盘(SSD)提供了经济高效的替代方案,但由于PCIe吞吐量限制和单设备带宽约束,基于SSD的朴素分页策略本质上受限于带宽瓶颈。本文观察到,实际工作负载中的KV缓存激活呈现出强且稳定的相关性,我们将其称为KV缓存协同激活现象——即访问某个KV条目时,常伴随一组稳定重复的其他KV条目被同时访问。基于这一特性,我们提出Swarm系统,这是一种基于SSD的KV缓存卸载方案,可将受带宽限制的单设备访问转化为跨多SSD的并行I/O。具体而言,Swarm离线聚类协同激活的KV条目,并通过基于图的分区策略配合选择性副本复制,将聚类结果分布到多个SSD上,以最大化并行I/O带宽。运行时,Swarm执行负载均衡的聚类检索,并动态调整聚类与缓存决策,以在演变的访问模式下维持高带宽利用率。评估表明,Swarm可将I/O时间减少2.41倍,有效带宽利用率提升2.72倍。

0
下载
关闭预览

相关内容

SSD算法,其英文全名是Single Shot MultiBox Detector,Single shot指明了SSD算法属于one-stage方法,MultiBox指明了SSD是多框预测。
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月1日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
SSD多盒实时目标检测教程
论智
13+阅读 · 2018年4月5日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员