MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering - 专知论文

会员服务 ·

0

问答 · 视频 · 多粒度 · 粒度 · 令牌 ·

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

翻译：MuKV：面向长流式视频问答的多粒度KV缓存压缩

Junbin Xiao,Jiajun Chen,Tianxiang Sun,Xun Yang,Angela Yao

from arxiv, To appear at CVPR'26. Code is available at https://github.com/IMBALDY/MuKV

Long streaming video QA remains challenging due to growing visual tokens and limited reasoning length of large language models (LLMs). KV-caching stores the Key-Value (KV) of the historical tokens via LLM prefill and enables more efficient streaming QA. However, existing methods cache every one or two frames, causing redundant memory usage and losing fine-grained spatial details within frame or temporal contexts across frames. This paper proposes MuKV, a method that features a multi-grained KV cache compression module and a semi-hierarchical retrieval approach to improve both efficiency and accuracy for long streaming VideoQA. For the offline KV cache, MuKV extracts visual representations at patch-, frame-, and segment-levels. The multiple levels of granularity preserve both local cues and global temporal context, while maintaining efficiency with a dual signal token compression mechanism guided by self-attention and frequency. For online QA, MuKV designs a semi-hierarchical retrieval method to retrieve relevant KV caches for answer generation. Experiments on long-streaming VideoQA benchmarks show that MuKV significantly improves answer accuracy, without sacrificing memory and online QA efficiency. Moreover, our compression mechanism alone brings consistent benefits across answer accuracy, memory, and QA efficiency over baselines, showcasing highly effective contribution.

翻译：长流式视频问答因视觉令牌不断增长及大语言模型推理长度受限而持续面临挑战。KV缓存技术通过大语言模型预填充存储历史令牌的键值对，实现更高效的流式问答。然而现有方法对每帧或每两帧进行缓存，既导致冗余内存占用，又丢失帧内精细空间细节与帧间时间上下文信息。本文提出MuKV方法，该方法包含多粒度KV缓存压缩模块与半层次化检索策略，旨在提升长流式视频问答的效率与准确性。在离线KV缓存阶段，MuKV在补丁级、帧级和片段级三个层次提取视觉表征。多粒度层次既能保留局部线索与全局时间上下文，又通过自注意力与频率机制引导的双重信号令牌压缩技术维持高效性。在在线问答阶段，MuKV设计半层次化检索方法，检索相关KV缓存以生成答案。在长流式视频问答基准测试上的实验表明，MuKV在不牺牲内存与在线问答效率的前提下显著提升答案准确率。此外，仅压缩模块本身即可在答案准确率、内存占用与问答效率方面相较于基线方法持续获益，展现出高效贡献。

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】重新思考长时视频理解中的时序检索

【CVPR2025】重新思考长时视频理解中的时序检索

专知会员服务

13+阅读 · 2025年4月6日

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

专知会员服务

7+阅读 · 2025年3月13日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

视频处理与压缩技术

专知会员服务

37+阅读 · 2021年2月20日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月15日

CentroidKV: Efficient Long-Context LLM Inference via KV Cache Clustering

Arxiv

0+阅读 · 6月14日

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

Arxiv

0+阅读 · 6月13日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Arxiv

0+阅读 · 5月28日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】重新思考长时视频理解中的时序检索

【CVPR2025】重新思考长时视频理解中的时序检索

专知会员服务

13+阅读 · 2025年4月6日

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

专知会员服务

7+阅读 · 2025年3月13日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

视频处理与压缩技术

专知会员服务

37+阅读 · 2021年2月20日

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

【ACM Multimedia 2020】双时间存储网络有效的视频对象分割

专知会员服务

10+阅读 · 2020年8月13日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

相关论文

Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月15日

CentroidKV: Efficient Long-Context LLM Inference via KV Cache Clustering

Arxiv

0+阅读 · 6月14日

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

Arxiv

0+阅读 · 6月13日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

Arxiv

0+阅读 · 5月28日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Arxiv

0+阅读 · 2月19日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员