Video generation is pivotal to digital media creation, and recent advances in autoregressive video generation have markedly enhanced the efficiency of real-time video synthesis. However, existing approaches generally rely on heuristic KV Cache policies, which ignore differences in token importance in long-term video generation. This leads to the loss of critical spatiotemporal information and the accumulation of redundant, invalid cache, thereby degrading video generation quality and efficiency. To address this limitation, we first observe that token contributions to video generation are highly time-heterogeneous and accordingly propose a novel Past- and Future-Informed KV Cache Policy (PaFu-KV). Specifically, PaFu-KV introduces a lightweight Salience Estimation Head distilled from a bidirectional teacher to estimate salience scores, allowing the KV cache to retain informative tokens while discarding less relevant ones. This policy yields a better quality-efficiency trade-off by shrinking KV cache capacity and reducing memory footprint at inference time. Extensive experiments on benchmarks demonstrate that our method preserves high-fidelity video generation quality while enables accelerated inference, thereby enabling more efficient long-horizon video generation. Our code will be released upon paper acceptance.


翻译:视频生成是数字媒体创作的关键环节,近期自回归视频生成技术的进展显著提升了实时视频合成的效率。然而,现有方法通常依赖于启发式的KV缓存策略,忽视了长时视频生成中不同令牌的重要性差异。这导致关键时空信息的丢失以及冗余无效缓存的累积,从而降低了视频生成的质量与效率。为解决这一局限,我们首先观察到令牌对视频生成的贡献具有高度的时间异质性,并据此提出了一种新颖的过去与未来感知KV缓存策略(PaFu-KV)。具体而言,PaFu-KV引入了一个从双向教师模型蒸馏而来的轻量级显著性估计头,用于评估令牌的显著性分数,使得KV缓存能够保留信息丰富的令牌,同时舍弃相关性较低的令牌。该策略通过缩减KV缓存容量并降低推理时的内存占用,实现了更优的质量-效率权衡。在多个基准测试上的大量实验表明,我们的方法在保持高保真视频生成质量的同时,实现了加速推理,从而支持更高效的长时视频生成。我们的代码将在论文录用后公开。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
专知会员服务
13+阅读 · 2021年9月13日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
专知会员服务
13+阅读 · 2021年9月13日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员