高效视频扩散模型：进展与挑战

视频扩散模型已迅速成为高保真生成式视频合成的主流范式，但其在实际部署中仍受限于巨大的推理成本。与图像生成相比，视频合成由于时空 Token 的增长和迭代去噪过程，使得计算复杂度大幅增加，导致注意力机制与显存交互（Memory Traffic）成为实际应用场景中的主要瓶颈。

本综述对高效视频扩散模型进行了系统性且面向部署的梳理。我们提出了一种统一的分类方法，将现有方法归纳为四类主要范式，包括：步长蒸馏 (Step Distillation)、高效注意力机制 (Efficient Attention)、模型压缩 (Model Compression) 以及 缓存与轨迹优化 (Cache/Trajectory Optimization)。基于此分类法，我们分别分析了这四种范式的算法演进趋势，并探讨了不同的设计方案如何针对两大核心目标——即减少函数评估次数（Number of Function Evaluations, NFE）与最小化单步开销。最后，我们讨论了当前面临的公开挑战与未来研究方向，包括复合加速下的质量保持、硬件-软件协同设计、稳健的实时长程生成，以及用于标准化评估的开放基础设施。据我们所知，本文是首篇关于高效视频扩散模型的全面综述，旨在为研究人员和工程师提供该领域及其前沿研究方向的结构化概览。

1 引言

视频扩散模型已转向基于扩散 Transformer (Diffusion Transformer, DiT) 的系统 [26, 44, 99, 134, 136, 137]，从而实现了日益连贯且高保真的视频生成。在架构缩放与长上下文时空建模 [15, 111] 的推动下，这一发展趋势使视频扩散模型成为了生成式媒体的主导范式。然而，这些性能提升暴露了一个根本性的系统瓶颈 [45]：视频生成在空间分辨率、时间长度和迭代去噪三个维度上产生了计算叠加，导致注意力机制与显存交互（Memory Traffic）主导了运行时间 [27, 107, 172, 177]。因此，即使是目前最先进的模型，在实时和长程生成场景中仍面临显著的部署障碍 [49, 157]。有鉴于此，加速与效率必须被视为与生成质量同等重要的“一等公民”目标。与图像生成相比，高效视频生成是一个更具挑战性的系统工程问题，因为视频合成必须同时处理高空间分辨率、长延时维度和迭代去噪过程。这种多重负担导致推理成本随着 Token 数量和采样深度的增加而增长，并直接决定了在严格的延迟与显存约束下，交互式创作、实时虚拟人生成、直播流以及长程世界模拟是否具有可行性。图 1 展示了一个具体的科研鸿沟：在 2022–2026 年间，纯图像加速论文占比为 64.1% (463/722)，而纯视频加速论文仅占 20.6% (149/722)，跨领域论文占 15.2% (110/722)。与此同时，纯视频研究正在迅速增加（从 2022 年的 5 篇增长至 2025 年的 84 篇），表明该领域正处于早期但快速整合的阶段，目前以步长蒸馏（Step Distillation）和稀疏注意力类方法为主。现有的综述主要关注通用扩散模型或图像域的效率问题。据我们所知，本文是首篇专门系统针对视频扩散模型高效生成的综述。除了借鉴图像扩散模型的思路外，我们强调了为何必须将视频视为一个独立的效率研究课题：时间连贯性约束、长上下文显存增长以及跨步误差累积，使得许多图像加速设计在扩展至视频领域时并非易事。在本综述中，我们对视频扩散模型的加速采样进行了系统性且面向部署的梳理，旨在将快速增长但碎片化的文献整合为一个面向研究人员和从业者的统一技术框架。具体而言，上述三个维度在部署过程中呈现乘法而非加法的交互关系。分辨率的提升增加了每层处理的潜变量 Token 数量；时长的延长扩大了必须保持全局一致性的时间上下文；而多步去噪则在单次采样中将这种高昂的计算重复了数十次。在实践中，这意味着从短片段转向分钟级生成，或从低分辨率转向高分辨率，会迅速超出单个加速器的显存预算，并迫使开发者在批大小（Batch Size）、延迟或模型容量之间做出不利的折衷。对于 DiT 类主干网络而言，负担尤为沉重，其注意力机制、KV 缓存移动及激活值存储均随 Token 总量和时间跨度缩放，使吞吐量对序列长度极其敏感。因此，高效视频扩散不仅涉及降低浮点运算量（FLOPs），还涉及控制端到端的系统压力，以确保生成任务在交互式编辑、直播内容流水线和持续模拟等生产负载中保持可行。本文结构安排如下：第 2 节介绍预备知识，包括视频扩散基础、评价指标及分类方法。第 3–6 节构成核心技术回顾。第 3 节涵盖一致性蒸馏、分布蒸馏及对抗蒸馏。第 4 节评述静态稀疏注意力、动态稀疏注意力及线性混合注意力设计。第 5 节讨论量化与剪枝策略。第 6 节分析特征与键值（KV）缓存、轨迹修改及并行执行优化。第 7 节讨论尚未解决的问题与实际研究方向，包括复合加速下的质量保持、硬件感知算法设计及开源数据基础设施。最后，第 8 节对核心要点进行总结。

成为VIP会员查看完整内容