Autoregressive video diffusion models enable streaming generation, opening the door to long-form synthesis, video world models, and interactive neural game engines. However, their core attention layers become a major bottleneck at inference time: as generation progresses, the KV cache grows, causing both increasing latency and escalating GPU memory, which in turn restricts usable temporal context and harms long-range consistency. In this work, we study redundancy in autoregressive video diffusion and identify three persistent sources: near-duplicate cached keys across frames, slowly evolving (largely semantic) queries/keys that make many attention computations redundant, and cross-attention over long prompts where only a small subset of tokens matters per frame. Building on these observations, we propose a unified, training-free attention framework for autoregressive diffusion: TempCache compresses the KV cache via temporal correspondence to bound cache growth; AnnCA accelerates cross-attention by selecting frame-relevant prompt tokens using fast approximate nearest neighbor (ANN) matching; and AnnSA sparsifies self-attention by restricting each query to semantically matched keys, also using a lightweight ANN. Together, these modules reduce attention, compute, and memory and are compatible with existing autoregressive diffusion backbones and world models. Experiments demonstrate up to x5--x10 end-to-end speedups while preserving near-identical visual quality and, crucially, maintaining stable throughput and nearly constant peak GPU memory usage over long rollouts, where prior methods progressively slow down and suffer from increasing memory usage.


翻译:自回归视频扩散模型支持流式生成,为长序列合成、视频世界模型与交互式神经游戏引擎开辟了道路。然而,其核心注意力层在推理时成为主要瓶颈:随着生成过程的推进,键值缓存不断增长,导致延迟持续增加且GPU内存占用不断攀升,这反过来限制了可用的时序上下文并损害了长程一致性。本研究分析了自回归视频扩散中的冗余性,识别出三个持续存在的来源:跨帧的近似重复缓存键、缓慢演化(主要为语义层面)的查询/键导致大量注意力计算冗余,以及长提示词上的交叉注意力中每帧仅需少量关键标记。基于这些观察,我们提出了一种用于自回归扩散的统一免训练注意力框架:TempCache通过时序对应性压缩键值缓存以限制缓存增长;AnnCA利用快速近似最近邻匹配筛选与帧相关的提示词标记,从而加速交叉注意力;AnnSA则通过将每个查询限制在语义匹配的键上(同样采用轻量级近似最近邻方法)来稀疏化自注意力。这些模块共同降低了注意力计算量与内存占用,且与现有自回归扩散主干及世界模型兼容。实验表明,在保持近乎一致的视觉质量的同时,实现了高达5至10倍的端到端加速;更重要的是,在长序列生成过程中,本方法能够维持稳定的吞吐量与近乎恒定的峰值GPU内存使用,而现有方法则会逐渐变慢并面临内存占用持续增长的问题。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
16+阅读 · 2025年4月30日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
复旦等最新《视频扩散模型》综述
专知会员服务
38+阅读 · 2023年10月20日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
【资源推荐】模型压缩与加速相关资源汇总
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
基于扩散模型和流模型的推理时引导生成技术
专知会员服务
16+阅读 · 2025年4月30日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
复旦等最新《视频扩散模型》综述
专知会员服务
38+阅读 · 2023年10月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员