Visual tokenizer is a critical component for vision generation. However, the existing tokenizers often face unsatisfactory trade-off between compression ratios and reconstruction fidelity. To fill this gap, we introduce a powerful and concise WeTok tokenizer, which surpasses the previous leading tokenizers via two core innovations. (1) Group-wise lookup-free Quantization (GQ). We partition the latent features into groups, and perform lookup-free quantization for each group. As a result, GQ can efficiently overcome memory and computation limitations of prior tokenizers, while achieving a reconstruction breakthrough with more scalable codebooks. (2) Generative Decoder (GD). Different from prior tokenizers, we introduce a generative decoder with a prior of extra noise variable. In this case, GD can probabilistically model the distribution of visual data conditioned on discrete tokens, allowing WeTok to reconstruct visual details, especially at high compression ratio. On the ImageNet 50k validation set, at a high-fidelity setting, WeTok achieves a record-low zero-shot rFID of 0.12, outperforming leading continuous tokenizers like FLUX-VAE (0.18) and SD-VAE 3.5 (0.19) with 400% compression ratio. Furthermore, in a high-compression regime, WeTok achieves a zero-shot rFID of 3.49 at a 768$\times$ compression ratio, substantially surpassing Cosmos, which scores 4.57 at only 50% our compression ratio. Code and models are available: https://github.com/zhuangshaobin/WeTok.


翻译:视觉分词器是视觉生成的关键组件。然而,现有分词器通常在压缩比与重建保真度之间面临难以令人满意的权衡。为填补这一空白,我们引入了一个强大且简洁的WeTok分词器,其通过两项核心创新超越了先前领先的分词器。(1) 分组无查找量化(GQ)。我们将潜在特征划分为若干组,并对每组执行无查找量化。因此,GQ能够有效克服先前分词器的内存与计算限制,同时通过更具可扩展性的码本实现重建突破。(2) 生成式解码器(GD)。与先前分词器不同,我们引入了一个具有额外噪声变量先验的生成式解码器。在此情况下,GD能够以离散词元为条件对视觉数据的分布进行概率建模,从而使WeTok能够重建视觉细节,尤其是在高压缩比下。在ImageNet 50k验证集上,在高保真设置下,WeTok实现了创纪录的零样本rFID 0.12,以400%的压缩比超越了FLUX-VAE (0.18)和SD-VAE 3.5 (0.19)等领先的连续分词器。此外,在高压缩机制下,WeTok在768$\times$压缩比下实现了3.49的零样本rFID,显著超越了Cosmos(其仅在我们50%的压缩比下得分为4.57)。代码与模型已开源:https://github.com/zhuangshaobin/WeTok。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月14日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员