Diffusion Transformers have become a dominant paradigm in visual generation, yet their low inference efficiency remains a key bottleneck hindering further advancement. Among common training-free techniques, caching offers high acceleration efficiency but often compromises fidelity, whereas pruning shows the opposite trade-off. Integrating caching with pruning achieves a balance between acceleration and generation quality. However, existing methods typically employ fixed and heuristic schemes to configure caching and pruning strategies. While they roughly follow the overall sensitivity trend of generation models to acceleration, they fail to capture fine-grained and complex variations, inevitably skipping highly sensitive computations and leading to quality degradation. Furthermore, such manually designed strategies exhibit poor generalization. To address these issues, we propose SODA, a Sensitivity-Oriented Dynamic Acceleration method that adaptively performs caching and pruning based on fine-grained sensitivity. SODA builds an offline sensitivity error modeling framework across timesteps, layers, and modules to capture the sensitivity to different acceleration operations. The cache intervals are optimized via dynamic programming with sensitivity error as the cost function, minimizing the impact of caching on model sensitivity. During pruning and cache reuse, SODA adaptively determines the pruning timing and rate to preserve computations of highly sensitive tokens, significantly enhancing generation fidelity. Extensive experiments on DiT-XL/2, PixArt-$α$, and OpenSora demonstrate that SODA achieves state-of-the-art generation fidelity under controllable acceleration ratios. Our code is released publicly at: https://github.com/leaves162/SODA.


翻译:扩散Transformer已成为视觉生成领域的主导范式,但其低推理效率仍是制约进一步发展的关键瓶颈。在常见的免训练加速技术中,缓存方法虽能实现高加速效率却常以保真度降低为代价,而剪枝方法则呈现相反的权衡特性。融合缓存与剪枝技术可在加速效率与生成质量间取得平衡,然而现有方法通常采用固定的启发式方案配置缓存与剪枝策略。尽管这些方案大致遵循生成模型对加速操作的全局灵敏度趋势,但未能捕捉细粒度、复杂的灵敏度变化,不可避免地跳过高灵敏度计算导致质量下降。此外,这种人工设计策略泛化能力薄弱。针对上述问题,本文提出面向灵敏度的动态加速方法SODA,该方法基于细粒度灵敏度自适应执行缓存与剪枝操作。SODA构建了一个跨时间步、跨层、跨模块的离线灵敏度误差建模框架,以捕获对不同加速操作的灵敏度响应。通过将灵敏度误差作为代价函数进行动态规划优化缓存间隔,最小化缓存操作对模型灵敏度的影响。在剪枝与缓存复用阶段,SODA自适应确定剪枝时机与剪枝率以保留高灵敏度标记的计算,显著提升生成保真度。在DiT-XL/2、PixArt-α和OpenSora上的大量实验表明,SODA在可控加速比下实现了最先进的生成保真度。我们的代码已开源:https://github.com/leaves162/SODA。

0
下载
关闭预览

相关内容

【ICML2025】SADA:基于稳定性引导的自适应扩散加速方法
专知会员服务
7+阅读 · 2025年7月30日
【ICML2025】SADA:稳定性引导的自适应扩散加速
专知会员服务
12+阅读 · 2025年7月24日
Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
英伟达Faster Transformer:作者带你揭秘BERT优化
机器之心
14+阅读 · 2019年9月18日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员