Despite their fundamental role, it remains unclear what properties could make tokenizers more effective for generative modeling. We observe that modern generative models share a conceptually similar training objective -- reconstructing clean signals from corrupted inputs, such as signals degraded by Gaussian noise or masking -- a process we term denoising. Motivated by this insight, we propose aligning tokenizer embeddings directly with the downstream denoising objective, encouraging latent embeddings that remain reconstructable even under significant corruption. To achieve this, we introduce the Latent Denoising Tokenizer (l-DeTok), a simple yet highly effective tokenizer trained to reconstruct clean images from latent embeddings corrupted via interpolative noise or random masking. Extensive experiments on class-conditioned (ImageNet 256x256 and 512x512) and text-conditioned (MSCOCO) image generation benchmarks demonstrate that our l-DeTok consistently improves generation quality across six representative generative models compared to prior tokenizers. Our findings highlight denoising as a fundamental design principle for tokenizer development, and we hope it could motivate new perspectives for future tokenizer design.


翻译:尽管分词器在生成模型中扮演着基础性角色,但何种特性能够使其对生成建模更为有效,这一问题仍未明晰。我们观察到,现代生成模型共享一个概念上相似的训练目标——从被破坏的输入中重建干净信号,例如被高斯噪声或掩码所退化的信号——我们将此过程称为去噪。受此洞见的启发,我们提出将分词器嵌入直接与下游的去噪目标对齐,鼓励潜在嵌入即使在显著破坏下仍能保持可重建性。为实现此目标,我们引入了潜在去噪分词器(l-DeTok),这是一种简单而高效的分词器,其训练目标是从经由插值噪声或随机掩码破坏的潜在嵌入中重建干净图像。在类别条件(ImageNet 256x256 和 512x512)和文本条件(MSCOCO)图像生成基准上的大量实验表明,与先前的分词器相比,我们的 l-DeTok 在六种代表性生成模型上持续提升了生成质量。我们的研究结果凸显了去噪作为分词器开发的一项基本设计原则,并希望它能激发未来分词器设计的新视角。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
【WWW2025】释放大型语言模型在去噪推荐中的强大能力
专知会员服务
13+阅读 · 2025年2月18日
【MetaAI】从扩展视觉分词器用于重建与生成中的经验
专知会员服务
13+阅读 · 2025年1月18日
去噪扩散概率模型,46页ppt
专知会员服务
63+阅读 · 2023年1月4日
赛尔笔记 | 条件变分自编码器(CVAE)
AINLP
28+阅读 · 2019年11月8日
用Attention玩转CV,一文总览自注意力语义分割进展
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
【干货】一文读懂什么是变分自编码器
专知
12+阅读 · 2018年2月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员