Key-value (KV) caching is essential for large language model inference, yet its memory overhead poses a critical bottleneck for long-context generation. Existing eviction policies predominantly rely on empirical heuristics, lacking a rigorous theoretical foundation. This work rethinks KV cache eviction through the lens of the Information Bottleneck principle. Under a linear-Gaussian surrogate of attention, we derive a closed-form mutual information objective that characterizes the effective information capacity of a retained KV cache subset. This formulation reveals that a wide range of existing eviction strategies can be interpreted as different approximations of the same capacity-maximization principle. Guided by this insight, we introduce CapKV, a capacity-aware eviction method that directly targets information preservation via a log-determinant approximation using statistical leverage scores. This approach replaces heuristic selection with a theoretically grounded mechanism that preserves the maximum predictive signal. Extensive experiments across multiple models and long-context benchmarks show that CapKV consistently outperforms prior methods, achieving a better trade-off between memory efficiency and generational fidelity.


翻译:键值(KV)缓存对于大型语言模型的推理至关重要,但其内存开销对长文本生成构成了关键瓶颈。现有驱逐策略主要依赖经验性启发式方法,缺乏严格的理论基础。本研究从信息瓶颈原则视角重新审视KV缓存驱逐问题。在注意力机制的线性-高斯近似下,我们推导出闭式互信息目标,该目标量化了保留KV缓存子集的有效信息容量。这一公式揭示,现有多种驱逐策略可被解释为同一容量最大化原则的不同近似形式。基于此洞察,我们提出CapKV——一种通过统计杠杆分数进行对数行列式近似、直接针对信息保留的容量感知驱逐方法。该方法以理论驱动的机制替代启发式选择,能够保留最大预测信号。跨多个模型与长文本基准的广泛实验表明,CapKV始终优于现有方法,在内存效率与生成保真度之间实现了更优权衡。

0
下载
关闭预览

相关内容

ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
9+阅读 · 5月27日
【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
9+阅读 · 2025年1月14日
从信息瓶颈理论一瞥机器学习的“大一统理论”
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 10分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 22分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 42分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
相关资讯
从信息瓶颈理论一瞥机器学习的“大一统理论”
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员