Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet naïve strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.


翻译:扩散Transformer(DiT)实现了最先进的生成性能,但其训练成本随序列长度呈二次增长,使得大规模预训练极为昂贵。令牌丢弃可降低训练成本,但简单策略会损害表征质量,现有方法要么参数量大,要么在高丢弃率下失效。本文提出SPRINT(面向高效扩散Transformer的稀疏-稠密残差融合方法),这是一种简单方法,可在保持质量的同时实现激进的令牌丢弃(高达75%)。SPRINT利用浅层与深层网络的互补作用:浅层处理所有令牌以捕捉局部细节,深层仅对稀疏子集进行计算以降低运算量,并通过残差连接融合二者输出。训练采用两阶段策略:先进行长序列掩码预训练以提升效率,再进行短序列全令牌微调以弥合训练-推理差距。在ImageNet-1K 256x256数据集上,SPRINT以可比的FID/FDD指标实现9.8倍训练成本节省;推理阶段,其路径丢弃引导(PDG)机制在提升质量的同时将FLOPs降低近半。这些结果表明SPRINT为高效DiT训练提供了一种简单、有效且通用的解决方案。

0
下载
关闭预览

相关内容

Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
12+阅读 · 2019年1月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员