【CMU博士论文】基于自适应表征的高效视觉建模

如何提升视频模型的运行效率？在视觉与语言领域，主流趋势是在大规模精选数据集上进行大规模端到端学习。然而，由于输入数据量巨大，扩展用于视频理解与生成的训练规模已被证明极具挑战性。目前的视频 Transformer 模型沿用了图像处理方式：将视频视为单一且极长的令牌（Token）序列。相比之下，现代视频编解码器通过对运动和冗余进行显式建模，实现了卓越的压缩比，从而保证了高效的存储与传输。受此类原理启发，本论文探讨了如何利用视频压缩中的运动估计、残差建模以及自适应采样等概念来加速视频模型。首先，我们将这些理念应用于视频理解任务，并引入了一系列在不损失性能的前提下减少冗余输入令牌的方法。 * 行程长度令牌化 (RLT)：受行程编码启发，通过将时间上冗余的数据块合并为单个令牌来加速视频 Transformer。 * 基于光流的令牌化 (FlowTok)：进一步扩展了上述思路，利用光流技术检测即使在运动状态下的冗余视觉内容，其表现优于基于网格的剪枝方法，并在动态的第一视角视频中取得了显著增益。 * 自适应补丁 Transformer (APT)：将这些理念泛化至图像领域，通过自适应分配补丁大小（对同质区域使用大补丁，对细节区域使用小补丁），在全分辨率视觉任务中实现了大幅加速。综合而言，这些方法证明了利用视觉数据的结构性与冗余性可以更高效地扩展 Transformer 模型，在不牺牲精度的前提下实现更快的训练与推理。

随后，我们将这些原则应用于视频生成。具体而言，我们提出了 SkipSR，这是一种结合了快速视频超分辨率与级联扩散模型的级联生成框架。不同于依赖固定启发式规则来确定令牌重要性的做法，SkipSR 通过端到端监督学习哪些令牌对合成至关重要。最后，我们引入了一个基准测试，系统地评估了帧率和分辨率对下游视频理解任务的影响，深入探讨了保真度的哪些维度对模型性能起决定性作用。通过将高效的视频令牌化、可扩展的视频合成以及原则性评估相结合，本论文显著提升了视频理解与生成模型的运行效率，为进一步的规模化扩展（Scaling）提供了可能。

成为VIP会员查看完整内容

相关内容

博士论文

关注 130

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

21+阅读 · 1月17日

【CVPR2025教程】高效的文本到图像/视频建模

专知会员服务

11+阅读 · 2025年6月11日

【UCSD博士论文】可控且高效的视觉生成

专知会员服务

18+阅读 · 2025年5月12日

【CUHK博士论文】构建高效且可扩展的视频理解AI模型

专知会员服务

16+阅读 · 2025年1月25日