Softpick: No Attention Sink, No Massive Activations with Rectified Softmax - 专知论文

会员服务 ·

0

Softmax · 汇聚 · 稀疏 · 精度 · Transformer ·

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

翻译：Softpick：通过修正Softmax消除注意力汇聚与大规模激活

Zayd M. K. Zuhri,Erland Hilman Fuadi,Alham Fikri Aji

from arxiv, Updated by adding analysis on why it does not scale

We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M and 1.8B parameter models demonstrate that softpick achieves 0\% sink rate consistently. The softpick transformers produce hidden states with significantly lower kurtosis and creates sparse attention maps. Quantized models using softpick outperform softmax on standard benchmarks, with a particularly pronounced advantage at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Code: https://github.com/zaydzuhri/softpick-attention.

翻译：本文提出softpick，一种修正的、非归一化的即插即用替代方案，用于Transformer注意力机制中的softmax，旨在消除注意力汇聚与大规模激活问题。我们在3.4亿和18亿参数模型上的实验表明，softpick能够持续实现0%的汇聚率。采用softpick的Transformer模型生成的隐藏状态具有显著更低的峰度，并产生稀疏的注意力分布图。使用softpick的量化模型在标准基准测试中表现优于基于softmax的模型，尤其在较低比特精度下优势更为明显。我们的分析与讨论揭示了softpick如何在量化、低精度训练、稀疏性优化、剪枝及可解释性等方面开辟新的可能性。代码地址：https://github.com/zaydzuhri/softpick-attention。

0

相关内容

Softmax

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

专知会员服务

36+阅读 · 2024年2月12日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

人工智能学家

30+阅读 · 2018年11月17日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining

Arxiv

0+阅读 · 2月13日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Arxiv

0+阅读 · 2月4日

Sparse Attention as Compact Kernel Regression

Arxiv

0+阅读 · 2月4日

Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models

Arxiv

0+阅读 · 2月3日

Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models

Arxiv

0+阅读 · 1月30日

Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond

Arxiv

0+阅读 · 1月25日

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Arxiv

0+阅读 · 1月23日

RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

Arxiv

0+阅读 · 1月22日

SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

11+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

2+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

4+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

2+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

2+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

2+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

2+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

2+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

6+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

4+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

11+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

8+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

8+阅读 · 6月9日

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

9+阅读 · 6月9日

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

6+阅读 · 6月9日

相关VIP内容

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

专知会员服务

36+阅读 · 2024年2月12日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

【Google大脑】进化正则激活层，Evolving Normalization-Activation Layers

专知会员服务

19+阅读 · 2020年4月9日

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

Google研究院提出FixMatch，简单粗暴却极其有效的半监督学习方法，附14页PDF下载

专知会员服务

54+阅读 · 2020年1月24日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能增强军事决策》

为何指挥所生存能力要求范式转变

马赛克战：俄乌战场透析

《自动机器学习在军事数据耕耘法中的应用》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

人工智能学家

30+阅读 · 2018年11月17日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining

Arxiv

0+阅读 · 2月13日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Arxiv

0+阅读 · 2月4日

Sparse Attention as Compact Kernel Regression

Arxiv

0+阅读 · 2月4日

Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models

Arxiv

0+阅读 · 2月3日

Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models

Arxiv

0+阅读 · 1月30日

Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond

Arxiv

0+阅读 · 1月25日

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Arxiv

0+阅读 · 1月23日

RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

Arxiv

0+阅读 · 1月22日

SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention

Arxiv

0+阅读 · 1月16日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

功率天平准直误差软补偿关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员