PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers - 专知论文

会员服务 ·

0

稀疏 · 分段 · 注意力机制 · 近似 · 精确计算 ·

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

翻译：PISA：分段稀疏注意力机制在高效扩散Transformer中的智慧选择

Haopeng Li,Shitong Shao,Wenliang Zhong,Zikai Zhou,Lichen Bai,Hui Xiong,Zeke Xie

from arxiv, 17 pages

Diffusion Transformers are fundamental for video and image generation, but their efficiency is bottlenecked by the quadratic complexity of attention. While block sparse attention accelerates computation by attending only critical key-value blocks, it suffers from degradation at high sparsity by discarding context. In this work, we discover that attention scores of non-critical blocks exhibit distributional stability, allowing them to be approximated accurately and efficiently rather than discarded, which is essentially important for sparse attention design. Motivated by this key insight, we propose PISA, a training-free Piecewise Sparse Attention that covers the full attention span with sub-quadratic complexity. Unlike the conventional keep-or-drop paradigm that directly drop the non-critical block information, PISA introduces a novel exact-or-approximate strategy: it maintains exact computation for critical blocks while efficiently approximating the remainder through block-wise Taylor expansion. This design allows PISA to serve as a faithful proxy to full attention, effectively bridging the gap between speed and quality. Experimental results demonstrate that PISA achieves 1.91 times and 2.57 times speedups on Wan2.1-14B and Hunyuan-Video, respectively, while consistently maintaining the highest quality among sparse attention methods. Notably, even for image generation on FLUX, PISA achieves a 1.2 times acceleration without compromising visual quality. Code is available at: https://github.com/xie-lab-ml/piecewise-sparse-attention.

翻译：扩散Transformer是视频和图像生成的基础，但其效率受限于注意力机制的二次复杂度。虽然块稀疏注意力通过仅关注关键键值块来加速计算，但在高稀疏度下会因丢弃上下文信息而导致性能下降。本研究发现，非关键块的注意力分数具有分布稳定性，使其能够被准确高效地近似而非直接丢弃，这一发现对稀疏注意力设计至关重要。基于这一关键洞见，我们提出PISA——一种无需训练的分段稀疏注意力机制，能够以次二次复杂度覆盖完整的注意力范围。不同于传统“保留或丢弃”范式直接舍弃非关键块信息，PISA引入了创新的“精确计算或近似处理”策略：对关键块保持精确计算，同时通过分块泰勒展开高效近似其余部分。该设计使PISA能够作为完整注意力的可靠代理，有效弥合速度与质量之间的鸿沟。实验结果表明，在Wan2.1-14B和Hunyuan-Video模型上，PISA分别实现了1.91倍和2.57倍的加速，同时在稀疏注意力方法中始终保持最高生成质量。值得注意的是，即使在FLUX模型上进行图像生成，PISA也能实现1.2倍加速且不损失视觉质量。代码已开源：https://github.com/xie-lab-ml/piecewise-sparse-attention。

0

相关内容

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

【ICML2024】通过动态可组合多头注意力改进Transformers

【ICML2024】通过动态可组合多头注意力改进Transformers

专知会员服务

21+阅读 · 2024年5月17日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知会员服务

18+阅读 · 2022年5月31日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Arxiv

0+阅读 · 3月5日

Incremental Learning of Sparse Attention Patterns in Transformers

Arxiv

0+阅读 · 2月22日

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Arxiv

0+阅读 · 2月13日

MonarchRT: Efficient Attention for Real-Time Video Generation

Arxiv

0+阅读 · 2月12日

Hilbert-Guided Sparse Local Attention

Arxiv

0+阅读 · 2月12日

Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning

Arxiv

0+阅读 · 2月11日

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

注意力机制

最新内容

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

1+阅读 · 今天8:18

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

1+阅读 · 今天7:39

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

4+阅读 · 今天7:33

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

1+阅读 · 今天7:28

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

1+阅读 · 今天7:14

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

17+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

相关VIP内容

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

【ICML2024】通过动态可组合多头注意力改进Transformers

【ICML2024】通过动态可组合多头注意力改进Transformers

专知会员服务

21+阅读 · 2024年5月17日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

144页ppt！《Transformers》全面讲解，附视频

144页ppt！《Transformers》全面讲解，附视频

专知会员服务

119+阅读 · 2023年1月1日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知会员服务

18+阅读 · 2022年5月31日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《通过小型无人机系统将情报能力“作战化”》

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

《通用大语言模型：无人机指挥与控制接口》最新40页

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Arxiv

0+阅读 · 3月5日

Incremental Learning of Sparse Attention Patterns in Transformers

Arxiv

0+阅读 · 2月22日

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Arxiv

0+阅读 · 2月13日

MonarchRT: Efficient Attention for Real-Time Video Generation

Arxiv

0+阅读 · 2月12日

Hilbert-Guided Sparse Local Attention

Arxiv

0+阅读 · 2月12日

Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning

Arxiv

0+阅读 · 2月11日

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

Dimensional Collapse in Transformer Attention Outputs: A Challenge for Sparse Dictionary Learning

Arxiv

0+阅读 · 2月2日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员