VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion - 专知论文

会员服务 ·

0

潜在 · cache · 秩 · 流 · Attention ·

VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion

翻译：VideoMLA：用于分钟级自回归视频扩散的低秩潜在KV缓存

Hidir Yesiltepe,Jiazhen Hu,Tuna Han Salih Meral,Adil Kaan Akan,Kaan Oktay,Hoda Eldardiry,Pinar Yanardag

from arxiv, Project Page: https://videomla.github.io/

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.

翻译：长序列因果视频扩散已形成固定大小的滑动窗口KV缓存，近期进展通过改变窗口内保留的令牌或位置编码方式在该框架内进行创新。然而，作为流式内存和延迟主要贡献者的每头KV布局本身基本保持不变。本文首次提出将多头潜在注意力（MLA）用于视频扩散。VideoMLA将每头的键和值替换为共享的低秩内容潜在表示和共享的解耦3D-RoPE位置键，使得每缓存层的每令牌KV内存减少92.7%。我们进一步研究了MLA在视频扩散中成功的原因，尽管语言模型中常用的频谱假设（即预训练视频注意力非低秩，99%能量有效秩远超任何实际潜在维度）在此不成立。VideoMLA在压缩比下保持质量，而直接频谱近似在该比下预期会产生较大重建误差。我们证明，决定有效秩的是MLA瓶颈而非预训练频谱：谱初始化和随机初始化均从初始化起占据近乎完整的秩预算，训练在保持该预算的同时在其中进行自适应。在VBench上，VideoMLA匹敌短时窗流式视频扩散基线，在长时窗评估方法中取得最佳整体得分，并在单块B200上将吞吐量提升至1.23倍。

0

相关内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

专知会员服务

7+阅读 · 2025年3月13日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

AI科技评论

11+阅读 · 2019年11月28日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

泡泡机器人SLAM

24+阅读 · 2018年7月18日

深度学习之视频图像压缩

深度学习之视频图像压缩

论智

13+阅读 · 2018年6月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Last But Not Least: Boundary Attention CalibratiON for Multimodal KV Cache Compression

Arxiv

0+阅读 · 6月16日

Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月15日

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Arxiv

0+阅读 · 6月12日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Arxiv

0+阅读 · 5月25日

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

Arxiv

0+阅读 · 5月21日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

9+阅读 · 4月20日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

【CVPR2025】BIMBA：面向长范围视频问答的选择性扫描压缩

专知会员服务

7+阅读 · 2025年3月13日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

【ICCV2021】内容感知特征调制的压缩视频传输

专知会员服务

13+阅读 · 2021年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

ICCV 2019 论文解读：用图神经网络改善视频的多标签分类

AI科技评论

11+阅读 · 2019年11月28日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

Facebook何恺明团队提出SlowFast网络，视频识别无需预训练

AI前线

10+阅读 · 2018年12月23日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

【泡泡一分钟】VegFru:用于细粒度视觉分类的特定领域的数据集(ICCV2017-53)

泡泡机器人SLAM

24+阅读 · 2018年7月18日

深度学习之视频图像压缩

深度学习之视频图像压缩

论智

13+阅读 · 2018年6月15日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

相关论文

Last But Not Least: Boundary Attention CalibratiON for Multimodal KV Cache Compression

Arxiv

0+阅读 · 6月16日

Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月15日

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Arxiv

0+阅读 · 6月12日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Arxiv

0+阅读 · 5月25日

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

Arxiv

0+阅读 · 5月21日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

相关基金

纳米分辨率显微视频的像素级数据挖掘研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员