如何提升视频模型的运行效率?在视觉与语言领域,主流趋势是在大规模精选数据集上进行大规模端到端学习。然而,由于输入数据量巨大,扩展用于视频理解与生成的训练规模已被证明极具挑战性。目前的视频 Transformer 模型沿用了图像处理方式:将视频视为单一且极长的令牌(Token)序列。相比之下,现代视频编解码器通过对运动和冗余进行显式建模,实现了卓越的压缩比,从而保证了高效的存储与传输。受此类原理启发,本论文探讨了如何利用视频压缩中的运动估计残差建模以及自适应采样等概念来加速视频模型。 首先,我们将这些理念应用于视频理解任务,并引入了一系列在不损失性能的前提下减少冗余输入令牌的方法。 * 行程长度令牌化 (RLT):受行程编码启发,通过将时间上冗余的数据块合并为单个令牌来加速视频 Transformer。 * 基于光流的令牌化 (FlowTok):进一步扩展了上述思路,利用光流技术检测即使在运动状态下的冗余视觉内容,其表现优于基于网格的剪枝方法,并在动态的第一视角视频中取得了显著增益。 * 自适应补丁 Transformer (APT):将这些理念泛化至图像领域,通过自适应分配补丁大小(对同质区域使用大补丁,对细节区域使用小补丁),在全分辨率视觉任务中实现了大幅加速。综合而言,这些方法证明了利用视觉数据的结构性与冗余性可以更高效地扩展 Transformer 模型,在不牺牲精度的前提下实现更快的训练与推理。

随后,我们将这些原则应用于视频生成。具体而言,我们提出了 SkipSR,这是一种结合了快速视频超分辨率与级联扩散模型的级联生成框架。不同于依赖固定启发式规则来确定令牌重要性的做法,SkipSR 通过端到端监督学习哪些令牌对合成至关重要。最后,我们引入了一个基准测试,系统地评估了帧率和分辨率对下游视频理解任务的影响,深入探讨了保真度的哪些维度对模型性能起决定性作用。 通过将高效的视频令牌化、可扩展的视频合成以及原则性评估相结合,本论文显著提升了视频理解与生成模型的运行效率,为进一步的规模化扩展(Scaling)提供了可能。

成为VIP会员查看完整内容
3

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
【CVPR2025教程】高效的文本到图像/视频建模
专知会员服务
11+阅读 · 2025年6月11日
【UCSD博士论文】可控且高效的视觉生成
专知会员服务
18+阅读 · 2025年5月12日
【CUHK博士论文】构建高效且可扩展的视频理解AI模型
专知会员服务
16+阅读 · 2025年1月25日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
36+阅读 · 2024年1月1日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
39+阅读 · 2023年6月12日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
35+阅读 · 2022年12月14日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
【CVPR2025教程】高效的文本到图像/视频建模
专知会员服务
11+阅读 · 2025年6月11日
【UCSD博士论文】可控且高效的视觉生成
专知会员服务
18+阅读 · 2025年5月12日
【CUHK博士论文】构建高效且可扩展的视频理解AI模型
专知会员服务
16+阅读 · 2025年1月25日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
36+阅读 · 2024年1月1日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
39+阅读 · 2023年6月12日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
35+阅读 · 2022年12月14日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员