The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the ``pre-training scaling problem`` and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8\% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.


翻译:视觉分词器(如VAEs)的潜在空间质量对于现代生成模型至关重要。然而,基于标准重建的训练范式产生的潜在空间偏向于低级信息,导致一个根本性缺陷:更好的像素级精度并不会带来更高质量的生成。这意味着将大量计算资源投入视觉分词器预训练对生成性能的提升效果甚微。我们将此识别为“预训练扩展问题”,并提出一个必要的转变:为了对生成有效,潜在空间必须简洁地表示高级语义。我们提出了VTP,一个统一的视觉分词器预训练框架,开创性地联合优化图像-文本对比、自监督和重建损失。我们的大规模研究揭示了两个主要发现:(1)理解是生成的关键驱动力,以及(2)显著更好的扩展特性,其中生成性能随着分配给视觉分词器预训练的计算量、参数和数据量而有效提升。经过大规模预训练后,我们的分词器展现出有竞争力的性能(ImageNet上78.2的零样本准确率和0.36的rFID),并且在生成任务上相比先进的蒸馏方法收敛速度快4.1倍。更重要的是,它能够有效扩展:在不修改标准DiT训练规格的情况下,仅通过在预训练VTP中投入更多FLOPS,就在下游生成任务中实现了65.8%的FID改进,而传统的自编码器在仅使用1/10 FLOPS时便早早停滞不前。我们的预训练模型可在https://github.com/MiniMax-AI/VTP获取。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员