如何提升视频模型的运行效率?在视觉与语言领域,主流趋势是在大规模精选数据集上进行大规模端到端学习。然而,由于输入数据量巨大,扩展用于视频理解与生成的训练规模已被证明极具挑战性。目前的视频 Transformer 模型沿用了图像处理方式:将视频视为单一且极长的令牌(Token)序列。相比之下,现代视频编解码器通过对运动和冗余进行显式建模,实现了卓越的压缩比,从而保证了高效的存储与传输。受此类原理启发,本论文探讨了如何利用视频压缩中的运动估计、残差建模以及自适应采样等概念来加速视频模型。 首先,我们将这些理念应用于视频理解任务,并引入了一系列在不损失性能的前提下减少冗余输入令牌的方法。 * 行程长度令牌化 (RLT):受行程编码启发,通过将时间上冗余的数据块合并为单个令牌来加速视频 Transformer。 * 基于光流的令牌化 (FlowTok):进一步扩展了上述思路,利用光流技术检测即使在运动状态下的冗余视觉内容,其表现优于基于网格的剪枝方法,并在动态的第一视角视频中取得了显著增益。 * 自适应补丁 Transformer (APT):将这些理念泛化至图像领域,通过自适应分配补丁大小(对同质区域使用大补丁,对细节区域使用小补丁),在全分辨率视觉任务中实现了大幅加速。综合而言,这些方法证明了利用视觉数据的结构性与冗余性可以更高效地扩展 Transformer 模型,在不牺牲精度的前提下实现更快的训练与推理。
随后,我们将这些原则应用于视频生成。具体而言,我们提出了 SkipSR,这是一种结合了快速视频超分辨率与级联扩散模型的级联生成框架。不同于依赖固定启发式规则来确定令牌重要性的做法,SkipSR 通过端到端监督学习哪些令牌对合成至关重要。最后,我们引入了一个基准测试,系统地评估了帧率和分辨率对下游视频理解任务的影响,深入探讨了保真度的哪些维度对模型性能起决定性作用。 通过将高效的视频令牌化、可扩展的视频合成以及原则性评估相结合,本论文显著提升了视频理解与生成模型的运行效率,为进一步的规模化扩展(Scaling)提供了可能。