Video generation is pivotal to digital media creation, and recent advances in autoregressive video generation have markedly enhanced the efficiency of real-time video synthesis. However, existing approaches generally rely on heuristic KV Cache policies, which ignore differences in token importance in long-term video generation. This leads to the loss of critical spatiotemporal information and the accumulation of redundant, invalid cache, thereby degrading video generation quality and efficiency. To address this limitation, we first observe that token contributions to video generation are highly time-heterogeneous and accordingly propose a novel Past- and Future-Informed KV Cache Policy (PaFu-KV). Specifically, PaFu-KV introduces a lightweight Salience Estimation Head distilled from a bidirectional teacher to estimate salience scores, allowing the KV cache to retain informative tokens while discarding less relevant ones. This policy yields a better quality-efficiency trade-off by shrinking KV cache capacity and reducing memory footprint at inference time. Extensive experiments on benchmarks demonstrate that our method preserves high-fidelity video generation quality while enables accelerated inference, thereby enabling more efficient long-horizon video generation. Our code will be released upon paper acceptance.


翻译:视频生成是数字媒体创作的关键环节,近期自回归视频生成技术的进展显著提升了实时视频合成的效率。然而,现有方法通常依赖于启发式的KV缓存策略,忽视了长时视频生成中不同token的重要性差异。这导致关键时空信息的丢失以及冗余无效缓存的累积,从而降低了视频生成的质量与效率。为克服这一局限,我们首先观察到token对视频生成的贡献具有高度的时间异质性,并据此提出一种新颖的过去与未来感知KV缓存策略(PaFu-KV)。具体而言,PaFu-KV引入一个从双向教师模型蒸馏而来的轻量级显著性估计头,用于评估token的显著性分数,使得KV缓存能够保留信息丰富的token并舍弃相关性较低的部分。该策略通过缩减KV缓存容量并降低推理时的内存占用,实现了更优的质量-效率权衡。在基准测试上的大量实验表明,我们的方法在保持高保真视频生成质量的同时实现了加速推理,从而为更高效的长时视频生成提供了可能。代码将在论文录用后公开。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
专知会员服务
13+阅读 · 2021年9月13日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【CVPR2024】使用大型语言模型扩展视频摘要预训练
专知会员服务
22+阅读 · 2024年4月6日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
专知会员服务
13+阅读 · 2021年9月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员