We study outlier tokens in Diffusion Transformers (DiTs) for image generation. Prior work has shown that Vision Transformers (ViTs) can produce a small number of high-norm tokens that attract disproportionate attention while carrying limited local information, but their role in generative models remains underexplored. We show that this phenomenon appears in both the encoder and denoiser of modern Representation Autoencoder (RAE)-DiT pipelines: pretrained ViT encoders can produce outlier representations, and DiTs themselves can develop internal outlier tokens, especially in intermediate layers. Moreover, simply masking high-norm tokens does not improve performance, indicating that the problem is not only caused by a few extreme values, but is more closely related to corrupted local patch semantics. To address this issue, we introduce Dual-Stage Registers (DSR), a register-based intervention for both components: trained registers when available, recursive test-time registers otherwise, and diffusion registers for the denoiser. Across ImageNet and large-scale text-to-image generation, these interventions consistently reduce outlier artifacts and improve generation quality. Our results highlight outlier-token control as an important ingredient in building stronger DiTs.


翻译:我们研究了图像生成中扩散Transformer(DiTs)的异常标记现象。先前研究表明,视觉Transformer(ViTs)会产生少量高范数标记,这些标记吸引过多注意力却携带有限局部信息,但它们在生成模型中的作用尚未充分探索。我们发现,在现代表征自编码器(RAE)-DiT流水线的编码器和去噪器中均存在此现象:预训练ViT编码器可产生异常表征,而DiT本身也会在中间层形成内部异常标记。此外,简单掩蔽高范数标记并不能改善性能,表明问题不仅源于少量极端值,更与局部补丁语义受损密切相关。为解决此问题,我们提出双阶段寄存器(DSR)——一种针对两个组件的基于寄存器的干预方法:当可用时使用训练寄存器,否则使用递归测试时寄存器,并对去噪器使用扩散寄存器。在ImageNet和大规模文生图任务中,这些干预措施持续减少异常伪影并提升生成质量。我们的研究结果强调了异常标记控制是构建更强DiT的关键要素。

0
下载
关闭预览

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于扩散模型的异常检测综述
专知会员服务
30+阅读 · 2025年1月23日
Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
【NeurIPS2023】利用扩散模型进行异常值想象
专知会员服务
24+阅读 · 2023年10月1日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员