Autoregressive image generation aims to predict the next token based on previous ones. However, this process is challenged by the bidirectional dependencies inherent in conventional image tokenizations, which creates a fundamental misalignment with the unidirectional nature of autoregressive models. To resolve this, we introduce AliTok, a novel Aligned Tokenizer that alters the dependency structure of the token sequence. AliTok employs a bidirectional encoder constrained by a causal decoder, a design that compels the encoder to produce a token sequence with both semantic richness and forward-dependency. Furthermore, by incorporating prefix tokens and employing a two-stage tokenizer training process to enhance reconstruction performance, AliTok achieves high fidelity and predictability simultaneously. Building upon AliTok, a standard decoder-only autoregressive model with just 177M parameters achieves a gFID of 1.44 and an IS of 319.5 on ImageNet-256. Scaling to 662M, our model reaches a gFID of 1.28, surpassing the SOTA diffusion method with 10x faster sampling. On ImageNet-512, our 318M model also achieves a SOTA gFID of 1.39. Code and weights at https://github.com/ali-vilab/alitok.


翻译:自回归图像生成旨在基于先前标记预测下一个标记。然而,这一过程受到传统图像标记化方法中固有的双向依赖关系的挑战,导致其与自回归模型的单向特性存在根本性错位。为解决此问题,我们提出了AliTok——一种新颖的对齐标记器,它改变了标记序列的依赖结构。AliTok采用由因果解码器约束的双向编码器设计,迫使编码器生成兼具语义丰富性和前向依赖性的标记序列。此外,通过引入前缀标记并采用两阶段标记器训练流程以增强重建性能,AliTok同时实现了高保真度与高可预测性。基于AliTok构建的纯解码器自回归模型仅需1.77亿参数,即在ImageNet-256数据集上达到1.44的gFID和319.5的IS指标。当扩展至6.62亿参数时,我们的模型获得1.28的gFID,以10倍采样速度超越当前最优扩散方法。在ImageNet-512数据集上,我们的3.18亿参数模型同样实现了1.39的SOTA级gFID。代码与权重发布于https://github.com/ali-vilab/alitok。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
专知会员服务
56+阅读 · 2020年12月20日
自回归模型:PixelCNN
专知会员服务
29+阅读 · 2020年3月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员