摘要——自回归(AR)视频生成模型依赖于视频标记器将像素压缩为离散标记序列。这些标记序列的长度对于平衡重建质量与下游生成的计算成本至关重要。传统的视频标记器在不同视频的时域块上采用均匀的标记分配方案,这往往导致在简单、静态或重复的片段上浪费标记,而对动态或复杂片段的采样则显不足。为了解决这一低效问题,我们引入了 EVATok,这是一个用于构建**高效视频自适应标记器(Efficient Video Adaptive Tokenizers)**的框架。我们的框架首先估计每个视频的最优标记分配方案,以实现最佳的质量-成本权衡;随后开发了轻量级路由器以快速预测这些最优分配;并训练自适应标记器根据路由器预测的分配方案对视频进行编码。我们证明了 EVATok 在视频重建及下游自回归生成任务中,均能显著提升效率与整体质量。得益于整合了视频语义编码器的高级训练方案,EVATok 在 UCF-101 数据集上实现了卓越的重建效果和最先进的(SOTA)类别到视频生成表现。与先前的 SOTA 模型 LARP 以及我们的固定长度基准模型相比,EVATok 节省了至少 24.4% 的平均标记使用量。

成为VIP会员查看完整内容
1

相关内容

【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
13+阅读 · 2021年4月26日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关VIP内容
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
探索长视频生成的最新趋势
专知会员服务
23+阅读 · 2024年12月30日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
长视频生成的综述:挑战、方法与前景
专知会员服务
47+阅读 · 2024年3月26日
​【CVPR 2021】半监督视频目标分割新算法,实现SOTA性能
专知会员服务
13+阅读 · 2021年4月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员