Efficient video generation models are increasingly vital for multimedia synthetic content generation. Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited to single-granularity strategies, struggling to balance generation quality and inference speed in a flexible manner. In this work, we propose MixCache, a training-free caching-based framework for efficient video DiT inference. It first distinguishes the interference and boundary between different caching strategies, and then introduces a context-aware cache triggering strategy to determine when caching should be enabled, along with an adaptive hybrid cache decision strategy for dynamically selecting the optimal caching granularity. Extensive experiments on diverse models demonstrate that, MixCache can significantly accelerate video generation (e.g., 1.94$\times$ speedup on Wan 14B, 1.97$\times$ speedup on HunyuanVideo) while delivering both superior generation quality and inference efficiency compared to baseline methods.


翻译:高效视频生成模型对于多媒体合成内容生成日益重要。基于Transformer架构和扩散过程,视频DiT模型已成为高质量视频生成的主流方法。然而,其多步迭代去噪过程导致高昂的计算成本和推理延迟。缓存作为DiT模型中广泛采用的优化方法,利用扩散过程中的冗余性在不同粒度(如步骤、cfg、模块)上跳过计算。然而,现有缓存方法局限于单粒度策略,难以灵活平衡生成质量与推理速度。本文提出MixCache,一种无需训练的基于缓存的框架,用于实现高效视频DiT推理。该框架首先区分不同缓存策略间的干扰与边界,进而引入上下文感知的缓存触发策略以确定何时启用缓存,并结合自适应混合缓存决策策略动态选择最优缓存粒度。在多种模型上的大量实验表明,MixCache能显著加速视频生成(例如在Wan 14B上实现1.94$\times$加速,在HunyuanVideo上实现1.97$\times$加速),同时在生成质量和推理效率方面均优于基线方法。

0
下载
关闭预览

相关内容

高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
【CMU博士论文】基于自适应表征的高效视觉建模
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
【资源推荐】模型压缩与加速相关资源汇总
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
【CMU博士论文】基于自适应表征的高效视觉建模
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员