The autoregressive video diffusion model has recently gained considerable research interest due to its causal modeling and iterative denoising. In this work, we identify that the multi-head self-attention in these models under-utilizes historical frames: approximately 25% heads attend almost exclusively to the current frame, and discarding their KV caches incurs only minor performance degradation. Building upon this, we propose Dummy Forcing, a simple yet effective method to control context accessibility across different heads. Specifically, the proposed heterogeneous memory allocation reduces head-wise context redundancy, accompanied by dynamic head programming to adaptively classify head types. Moreover, we develop a context packing technique to achieve more aggressive cache compression. Without additional training, our Dummy Forcing delivers up to 2.0x speedup over the baseline, supporting video generation at 24.3 FPS with less than 0.5% quality drop. Project page is available at https://csguoh.github.io/project/DummyForcing/.


翻译:自回归视频扩散模型因其因果建模和迭代去噪特性,近期获得了广泛的研究关注。本研究发现,此类模型中的多头自注意力机制对历史帧的利用存在不足:约25%的注意力头几乎仅关注当前帧,且丢弃其键值缓存仅导致轻微的性能下降。基于此发现,我们提出虚拟头强制机制——一种简洁而有效的方法,用于控制不同注意力头对上下文信息的访问权限。具体而言,所提出的异构内存分配策略降低了注意力头间的上下文冗余,并结合动态头编程技术自适应地分类注意力头类型。此外,我们开发了上下文打包技术以实现更激进的缓存压缩。在不需额外训练的情况下,本方法相比基线模型实现了最高2.0倍的加速,能以24.3 FPS的速度生成视频且质量下降小于0.5%。项目页面详见 https://csguoh.github.io/project/DummyForcing/。

0
下载
关闭预览

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视觉自回归模型综述
专知会员服务
45+阅读 · 2024年11月15日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员