EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation - 专知论文

会员服务 ·

0

视频 · 分词 · 自适应 · 重建 · 最优 ·

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

翻译：EVATok：面向高效视觉自回归生成的自适应长度视频分词方法

Tianwei Xiong,Jun Hao Liew,Zilong Huang,Zhijie Lin,Jiashi Feng,Xihui Liu

from arxiv, Accepted by CVPR 2026. Project page: https://silentview.github.io/EVATok/

Autoregressive (AR) video generative models rely on video tokenizers that compress pixels into discrete token sequences. The length of these token sequences is crucial for balancing reconstruction quality against downstream generation computational cost. Traditional video tokenizers apply a uniform token assignment across temporal blocks of different videos, often wasting tokens on simple, static, or repetitive segments while underserving dynamic or complex ones. To address this inefficiency, we introduce $\textbf{EVATok}$, a framework to produce $\textbf{E}$fficient $\textbf{V}$ideo $\textbf{A}$daptive $\textbf{Tok}$enizers. Our framework estimates optimal token assignments for each video to achieve the best quality-cost trade-off, develops lightweight routers for fast prediction of these optimal assignments, and trains adaptive tokenizers that encode videos based on the assignments predicted by routers. We demonstrate that EVATok delivers substantial improvements in efficiency and overall quality for video reconstruction and downstream AR generation. Enhanced by our advanced training recipe that integrates video semantic encoders, EVATok achieves superior reconstruction and state-of-the-art class-to-video generation on UCF-101, with at least 24.4% savings in average token usage compared to the prior state-of-the-art LARP and our fixed-length baseline.

翻译：自回归（AR）视频生成模型依赖于视频分词器，后者将像素压缩为离散的标记序列。这些标记序列的长度对于平衡重建质量与下游生成的计算成本至关重要。传统的视频分词器在不同视频的时间块上采用统一的标记分配方案，常常在简单、静态或重复的片段上浪费标记，而对动态或复杂的片段分配不足。为解决这一低效问题，我们提出了 $\textbf{EVATok}$ 框架，用于生成 $\textbf{E}$fficient $\textbf{V}$ideo $\textbf{A}$daptive $\textbf{Tok}$enizers（高效视频自适应分词器）。我们的框架为每个视频估计最优的标记分配，以实现最佳的质量-成本权衡；开发轻量级路由器以快速预测这些最优分配；并训练自适应分词器，使其根据路由器预测的分配方案对视频进行编码。我们证明，EVATok 在视频重建和下游 AR 生成的效率与整体质量方面均带来显著提升。通过我们集成了视频语义编码器的先进训练方案增强，EVATok 在 UCF-101 数据集上实现了卓越的重建效果和最先进的类别到视频生成性能，与先前最优的 LARP 以及我们固定长度的基线相比，平均标记使用量至少节省了 24.4%。

0

相关内容

视频

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

专知会员服务

13+阅读 · 2025年1月18日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

25+阅读 · 2024年11月14日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

长视频生成的综述：挑战、方法与前景

长视频生成的综述：挑战、方法与前景

专知会员服务

47+阅读 · 2024年3月26日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Arxiv

0+阅读 · 3月9日

Towards Scalable Pre-training of Visual Tokenizers for Generation

Arxiv

0+阅读 · 3月6日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 2月23日

VAR-3D: View-aware Auto-Regressive Model for Text-to-3D Generation via a 3D Tokenizer

Arxiv

0+阅读 · 2月14日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

Arxiv

0+阅读 · 2月9日

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Arxiv

0+阅读 · 2月4日

VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents

Arxiv

0+阅读 · 2月4日

Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation

Arxiv

0+阅读 · 1月30日

NativeTok: Native Visual Tokenization for Improved Image Generation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

0+阅读 · 今天14:42

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

1+阅读 · 今天14:38

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

7+阅读 · 今天1:22

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

3+阅读 · 今天1:17

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

4+阅读 · 今天1:12

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

3+阅读 · 今天1:11

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

8+阅读 · 今天1:00

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

6+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

6+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

8+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

16+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

7+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

12+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

9+阅读 · 4月29日

相关VIP内容

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

EVATok：面向高效视觉自回归生成的自适应长度视频标记化方法

专知会员服务

6+阅读 · 3月16日

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

【ICML2025】《基于低分辨率词元枢轴的层级掩码自回归模型》

专知会员服务

7+阅读 · 2025年5月27日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

【MetaAI】从扩展视觉分词器用于重建与生成中的经验

专知会员服务

13+阅读 · 2025年1月18日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

25+阅读 · 2024年11月14日

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架

专知会员服务

25+阅读 · 2024年3月27日

长视频生成的综述：挑战、方法与前景

长视频生成的综述：挑战、方法与前景

专知会员服务

47+阅读 · 2024年3月26日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【AAAI2021】用于视频描述的语义分组网络

【AAAI2021】用于视频描述的语义分组网络

专知会员服务

16+阅读 · 2021年2月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《图世界模型：概念、分类体系与未来方向》

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

Palantir AIP平台：连接智能体与决策

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关论文

HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Arxiv

0+阅读 · 3月9日

Towards Scalable Pre-training of Visual Tokenizers for Generation

Arxiv

0+阅读 · 3月6日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 2月23日

VAR-3D: View-aware Auto-Regressive Model for Text-to-3D Generation via a 3D Tokenizer

Arxiv

0+阅读 · 2月14日

Flow caching for autoregressive video generation

Arxiv

0+阅读 · 2月11日

WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction

Arxiv

0+阅读 · 2月9日

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Arxiv

0+阅读 · 2月4日

VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents

Arxiv

0+阅读 · 2月4日

Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation

Arxiv

0+阅读 · 1月30日

NativeTok: Native Visual Tokenization for Improved Image Generation

Arxiv

0+阅读 · 1月30日

相关基金

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员