Diffusion Transformers achieve impressive generative quality but remain computationally expensive due to iterative sampling. Recently, dynamic resolution sampling has emerged as a promising acceleration technique by reducing the resolution of early sampling steps. However, existing methods rely on heuristic re-noising at every resolution transition, injecting noise that breaks cross-stage consistency and forces the model to relearn global structure. In addition, these methods indiscriminately upsample the entire latent space at once without checking which regions have actually converged, causing accumulated errors, and visible artifacts. Therefore, we propose \textbf{Fresco}, a dynamic resolution framework that unifies re-noise and global structure across stages with progressive upsampling, preserving both the efficiency of low-resolution drafting and the fidelity of high-resolution refinement, with all stages aligned toward the same final target. Fresco achieves near-lossless acceleration across diverse domains and models, including 10$\times$ speedup on FLUX, and 5$\times$ on HunyuanVideo, while remaining orthogonal to distillation, quantization and feature caching, reaching 22$\times$ speedup when combined with distilled models. Our code is in supplementary material and will be released on Github.


翻译:扩散Transformer在生成质量方面取得了令人瞩目的成就,但由于迭代采样过程,其计算成本依然高昂。近期,动态分辨率采样作为一种有前景的加速技术出现,通过降低早期采样步骤的分辨率来实现加速。然而,现有方法依赖于在每次分辨率转换时进行启发式重加噪,这种注入噪声的做法破坏了跨阶段一致性,并迫使模型重新学习全局结构。此外,这些方法不加区分地一次性对整个潜在空间进行上采样,而未检查哪些区域已实际收敛,从而导致误差累积和可见伪影。为此,我们提出\textbf{Fresco},一种动态分辨率框架,它通过渐进上采样将重加噪过程与跨阶段全局结构相统一,既保留了低分辨率草图绘制阶段的效率,又确保了高分辨率细化阶段的保真度,且所有阶段均对齐至同一最终目标。Fresco在多个领域和模型上实现了近乎无损的加速效果,包括在FLUX上达到10$\times$加速,在HunyuanVideo上达到5$\times$加速,同时该方法与蒸馏、量化和特征缓存等技术正交,当与蒸馏模型结合时,加速比可达22$\times$。我们的代码详见补充材料,并将于Github上发布。

0
下载
关闭预览

相关内容

【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月8日
VIP会员
相关VIP内容
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员