SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space - 专知论文

会员服务 ·

0

稀疏 · 对齐 · 输出 · 特征空间 · 间隙 ·

SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

翻译：SSA：通过特征空间中对齐完整注意力与稀疏注意力输出的稀疏稀疏注意力

Zhenyi Shen,Junru Lu,Lin Gui,Jiazheng Li,Yulan He,Di Yin,Xing Sun

from arxiv, 31 pages

Sparse attention reduces the quadratic complexity of full self-attention but faces two challenges: (1) an attention gap, where applying sparse attention to full-attention-trained models causes performance degradation due to train-inference distribution mismatch, and (2) a capability gap, where models trained purely with sparse attention lack complete gradient flow, preventing them from matching full-attention performance. We propose SSA (Sparse Sparse Attention), a training framework that integrates both sparse and full attention with bidirectional attention-output alignment. We prove that the approximation error scales linearly with the attention mass dropped under sparse attention, and show that SSA's alignment objective substantially reduces this quantity compared to baselines. Experiments demonstrate that SSA achieves state-of-the-art performance under both inference modes, adapts smoothly to varying sparsity budgets, and demonstrates superior long-context capabilities. The code is available at https://github.com/zhenyi4/ssa.

翻译：稀疏注意力降低了完整自注意力的二次复杂度，但仍面临两个挑战：(1) 注意力间隙：将稀疏注意力应用于完整注意力训练的模型时，由于训练-推理分布不匹配会导致性能下降；(2) 能力间隙：仅用稀疏注意力训练的模型缺乏完整的梯度流，使其无法达到完整注意力的性能。我们提出SSA（稀疏稀疏注意力），一种通过双向注意力输出对齐来整合稀疏与完整注意力的训练框架。我们证明了近似误差随稀疏注意力丢弃的注意力质量呈线性增长，并表明与基线方法相比，SSA的对齐目标能显著降低该误差量。实验表明，SSA在两种推理模式下均达到最先进的性能，能平滑适应不同的稀疏度预算，并展现出卓越的长上下文处理能力。代码发布于 https://github.com/zhenyi4/ssa。

0

相关内容

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

专知会员服务

46+阅读 · 2022年6月29日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

北京思腾合力科技有限公司

17+阅读 · 2017年10月28日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation

Arxiv

0+阅读 · 2月27日

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Arxiv

0+阅读 · 2月13日

Hilbert-Guided Sparse Local Attention

Arxiv

0+阅读 · 2月12日

Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features

Arxiv

0+阅读 · 2月9日

Prism: Spectral-Aware Block-Sparse Attention

Arxiv

0+阅读 · 2月9日

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Arxiv

0+阅读 · 2月4日

Sparse Attention as Compact Kernel Regression

Arxiv

0+阅读 · 2月4日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

1+阅读 · 今天13:30

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

1+阅读 · 今天13:28

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

5+阅读 · 今天7:54

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

14+阅读 · 今天7:47

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 今天7:43

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 今天7:37

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

7+阅读 · 今天7:33

以人工智能为中心的指挥控制

以人工智能为中心的指挥控制

专知会员服务

3+阅读 · 今天7:14

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

专知会员服务

4+阅读 · 今天4:15

俄乌冲突背景下军事特种公路运输日益增长的重要性

俄乌冲突背景下军事特种公路运输日益增长的重要性

专知会员服务

4+阅读 · 今天3:44

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

9+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

13+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

8+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

14+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

6+阅读 · 6月10日

相关VIP内容

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

专知会员服务

46+阅读 · 2022年6月29日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

GRAPH-BERT ：学习图表示只需要注意力，GRAPH-BERT : Only Attention is Needed for Learning Graph Representations

专知会员服务

78+阅读 · 2020年5月31日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

《多域战场上反制小型无人机系统》150页

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

相关资讯

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

北京思腾合力科技有限公司

17+阅读 · 2017年10月28日

相关论文

FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation

Arxiv

0+阅读 · 2月27日

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Arxiv

0+阅读 · 2月13日

Hilbert-Guided Sparse Local Attention

Arxiv

0+阅读 · 2月12日

Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features

Arxiv

0+阅读 · 2月9日

Prism: Spectral-Aware Block-Sparse Attention

Arxiv

0+阅读 · 2月9日

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Arxiv

0+阅读 · 2月4日

Sparse Attention as Compact Kernel Regression

Arxiv

0+阅读 · 2月4日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

相关基金

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员