Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective - 专知论文

会员服务 ·

0

Softmax · 分析 · 无限 · 线性注 · 线性注意力 ·

Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective

翻译：Softmax作为大提示场景下的线性注意力：基于测度的视角

Etienne Boursier,Claire Boyer

Softmax attention is a central component of transformer architectures, yet its nonlinear structure poses significant challenges for theoretical analysis. We develop a unified, measure-based framework for studying single-layer softmax attention under both finite and infinite prompts. For i.i.d. Gaussian inputs, we lean on the fact that the softmax operator converges in the infinite-prompt limit to a linear operator acting on the underlying input-token measure. Building on this insight, we establish non-asymptotic concentration bounds for the output and gradient of softmax attention, quantifying how rapidly the finite-prompt model approaches its infinite-prompt counterpart, and prove that this concentration remains stable along the entire training trajectory in general in-context learning settings with sub-Gaussian tokens. In the case of in-context linear regression, we use the tractable infinite-prompt dynamics to analyze training at finite prompt length. Our results allow optimization analyses developed for linear attention to transfer directly to softmax attention when prompts are sufficiently long, showing that large-prompt softmax attention inherits the analytical structure of its linear counterpart. This, in turn, provides a principled and broadly applicable toolkit for studying the training dynamics and statistical behavior of softmax attention layers in large prompt regimes.

翻译：Softmax注意力是Transformer架构的核心组件，但其非线性结构给理论分析带来了重大挑战。我们建立了一个统一的、基于测度的框架，用于研究有限与无限提示场景下的单层Softmax注意力。对于独立同分布的高斯输入，我们利用Softmax算子在无限提示极限下收敛为作用于底层输入-令牌测度的线性算子这一事实。基于此发现，我们建立了Softmax注意力输出与梯度的非渐近浓度界，量化了有限提示模型逼近其无限提示对应模型的速度，并证明在具有次高斯令牌的通用上下文学习设置中，该浓度性在整个训练轨迹上保持稳定。在上下文线性回归案例中，我们利用可处理的无限提示动力学来分析有限提示长度下的训练。我们的结果表明，当提示足够长时，为线性注意力开发的优化分析可直接迁移至Softmax注意力，显示大提示场景下的Softmax注意力继承了其线性对应物的分析结构。这进而为大提示场景下Softmax注意力层的训练动力学与统计行为研究提供了原理性且广泛适用的工具包。

0

相关内容

Softmax

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

5+阅读 · 5月5日

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

专知会员服务

36+阅读 · 2024年2月12日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding

Arxiv

0+阅读 · 6月16日

Depth-Attention: Cross-Layer Value Mixing for Language Models

Arxiv

0+阅读 · 6月13日

MiniMax Sparse Attention

Arxiv

0+阅读 · 6月12日

Exact Linear Attention

Arxiv

0+阅读 · 6月11日

Towards Tight Bounds for Streaming Attention

Arxiv

0+阅读 · 6月5日

WildCat: Near-Linear Attention in Theory and Practice

Arxiv

0+阅读 · 6月1日

The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought

Arxiv

0+阅读 · 5月18日

Calibrating Scientific Foundation Models with Inference-Time Stochastic Attention

Arxiv

0+阅读 · 5月11日

Power-Softmax: Towards Secure LLM Inference over Encrypted Data

Arxiv

0+阅读 · 5月5日

AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe

Arxiv

0+阅读 · 4月22日

VIP会员

文章信息

相关主题

线性注意力

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

10+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

8+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

10+阅读 · 7月31日

相关VIP内容

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

5+阅读 · 5月5日

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

大模型时代还不理解自注意力(Self-Attention)？这篇文章教你从头写代码实现

专知会员服务

36+阅读 · 2024年2月12日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

20+阅读 · 2021年10月26日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding

Arxiv

0+阅读 · 6月16日

Depth-Attention: Cross-Layer Value Mixing for Language Models

Arxiv

0+阅读 · 6月13日

MiniMax Sparse Attention

Arxiv

0+阅读 · 6月12日

Exact Linear Attention

Arxiv

0+阅读 · 6月11日

Towards Tight Bounds for Streaming Attention

Arxiv

0+阅读 · 6月5日

WildCat: Near-Linear Attention in Theory and Practice

Arxiv

0+阅读 · 6月1日

The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought

Arxiv

0+阅读 · 5月18日

Calibrating Scientific Foundation Models with Inference-Time Stochastic Attention

Arxiv

0+阅读 · 5月11日

Power-Softmax: Towards Secure LLM Inference over Encrypted Data

Arxiv

0+阅读 · 5月5日

AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe

Arxiv

0+阅读 · 4月22日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于立体视觉的结构大变形全过程非接触动态测量方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员