Transformer-based diffusion models offer superior scalability and performance but suffer from high computational overhead due to the iterative nature and quadratic complexity of self-attention at high resolutions. In this paper, we propose DiSC, a resolution-scalable, sparsity-aware hardware accelerator. At the software level, DiSC introduces two algorithms: Cached Token Reuse (CTR), and Softmax Thresholding with Sparsity Mask Reuse (ST). CTR introduces a mechanism that translates spatial variations in the input latent difference across steps into a token-level reuse decision, effectively eliminating redundant token computation. ST induces sparsity in attention operations by reusing a generated sparsity pattern, leveraging temporal similarity to bypass costly prediction overhead. Together, these algorithms provide resolution-scalable computational benefits and yield a moderate sparsity and hybrid dense-sparse workload. To exploit this efficiently, we design a specialized hardware architecture and unified dataflow. This architecture avoids dedicated sparsity-handling components; instead, a hash-based distribution over on-chip memory banks allows DiSC to reuse its existing compute engines for sparse operations, efficiently exploiting the induced sparsity with minimal hardware overhead. Evaluated on DiT and PixArt-Sigma, DiSC achieves 3.47-4.74x and 2.48-3.50x speedups over NVIDIA A100 and H100 GPUs, respectively, with energy savings ranging from 46.4% to 68.1%.


翻译:基于Transformer的扩散模型具有优越的可扩展性和性能,但由于迭代特性及高分辨率下自注意力的二次复杂度,其计算开销巨大。本文提出DiSC——一种分辨率可扩展的稀疏感知硬件加速器。软件层面,DiSC引入两种算法:缓存令牌复用(CTR)和稀疏掩码复用的Softmax阈值化(ST)。CTR通过跨步骤输入潜变量差异的空间变化机制,将其转化为令牌级复用决策,有效消除冗余令牌计算;ST通过复用生成的稀疏模式来诱导注意力运算中的稀疏性,利用时间相似性避免高昂的预测开销。这两种算法共同提供分辨率可扩展的计算优势,并产生适度稀疏与混合稠密-稀疏工作负载。为高效利用该特性,我们设计了专用硬件架构与统一数据流。该架构避免采用专用稀疏处理组件,而是通过片上存储体基于哈希的分布机制,使DiSC可复用现有计算引擎执行稀疏运算,以最小硬件开销高效利用诱导的稀疏性。在DiT和PixArt-Sigma上的评估表明,DiSC相比NVIDIA A100和H100 GPU分别实现3.47-4.74倍和2.48-3.50倍的加速,节能幅度达46.4%至68.1%。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
高效扩散模型综述
专知会员服务
35+阅读 · 2025年2月1日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
超全总结:神经网络加速之量化模型 | 附带代码
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
2+阅读 · 46分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
《通过小型无人机系统将情报能力“作战化”》
相关VIP内容
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
9+阅读 · 2025年10月23日
高效扩散模型综述
专知会员服务
35+阅读 · 2025年2月1日
扩散模型图像超分辨率等综述
专知会员服务
25+阅读 · 2024年1月2日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
【CVPR2023】DiffCollage:用扩散模型并行生成大量内容
专知会员服务
28+阅读 · 2023年4月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员