SympFormer: Accelerated attention blocks via Inertial Dynamics on Density Manifolds - 专知论文

会员服务 ·

0

流形 · 自注意力 · 相互作用 · 梯度 · 近似 ·

SympFormer: Accelerated attention blocks via Inertial Dynamics on Density Manifolds

翻译：SympFormer：基于密度流形惯性动力学的加速注意力模块

Viktor Stein,Wuchen Li,Gabriele Steidl

from arxiv, 24 pages, 2 figures, 3 tables, comments welcome!

Transformers owe much of their empirical success in natural language processing to the self-attention blocks. Recent perspectives interpret attention blocks as interacting particle systems, whose mean-field limits correspond to gradient flows of interaction energy functionals on probability density spaces equipped with Wasserstein-$2$-type metrics. We extend this viewpoint by introducing accelerated attention blocks derived from inertial Nesterov-type dynamics on density spaces. In our proposed architecture, tokens carry both spatial (feature) and velocity variables. The time discretization and the approximation of accelerated density dynamics yield Hamiltonian momentum attention blocks, which constitute the proposed accelerated attention architectures. In particular, for linear self-attention, we show that the attention blocks approximate a Stein variational gradient flow, using a bilinear kernel, of a potential energy. In this setting, we prove that elliptically contoured probability distributions are preserved by the accelerated attention blocks. We present implementable particle-based algorithms and demonstrate that the proposed accelerated attention blocks converge faster than the classical attention blocks while preserving the number of oracle calls.

翻译：Transformer 在自然语言处理中的实证成功很大程度上归功于自注意力模块。近期研究将注意力模块解释为相互作用的粒子系统，其平均场极限对应于在配备 Wasserstein-$2$ 型度量的概率密度空间上，相互作用能量泛函的梯度流。我们通过引入源自密度空间上惯性 Nesterov 型动力学的加速注意力模块，拓展了这一观点。在我们提出的架构中，标记同时携带空间（特征）变量和速度变量。时间离散化与加速密度动力学的近似产生了哈密顿动量注意力模块，这些模块构成了所提出的加速注意力架构。特别地，对于线性自注意力，我们证明了注意力模块使用双线性核近似了势能的 Stein 变分梯度流。在此设定下，我们证明了椭圆轮廓概率分布由加速注意力模块保持。我们提出了可实现的基于粒子的算法，并证明了所提出的加速注意力模块在保持预言机调用次数不变的同时，比经典注意力模块收敛得更快。

0

相关内容

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【复旦大学邱锡鹏教授】自然语言处理中的自注意力模型，53页ppt

【复旦大学邱锡鹏教授】自然语言处理中的自注意力模型，53页ppt

专知会员服务

130+阅读 · 2020年9月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

57+阅读 · 2020年1月12日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

面向新颖成像模式的敏捷卫星姿态滚动优化控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

柔性磁致伸缩FeGa纳米点阵中涡旋态的应力调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同来流条件下旋转圆球绕流特性研究与非定常气动模型构建

国家自然科学基金

1+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

受限胶体中结构与力学性质的动态密度泛函研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于变胞原理的AT自动变速箱换挡变拓扑动力学建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

Why Softmax Attention Outperforms Linear Attention

Arxiv

0+阅读 · 3月13日

Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

Arxiv

0+阅读 · 3月13日

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Arxiv

0+阅读 · 3月11日

The Bayesian Geometry of Transformer Attention

Arxiv

0+阅读 · 3月11日

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Arxiv

0+阅读 · 3月10日

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning

Arxiv

0+阅读 · 3月2日

Accelerating Multi-Scale Deformable Attention Using Near-Memory-Processing Architecture

Arxiv

0+阅读 · 3月1日

RMAAT: Astrocyte-Inspired Memory Compression and Replay for Efficient Long-Context Transformers

Arxiv

0+阅读 · 2月28日

Incremental Learning of Sparse Attention Patterns in Transformers

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

0+阅读 · 今天16:16

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

1+阅读 · 今天16:08

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

0+阅读 · 今天16:08

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

2+阅读 · 今天14:09

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

4+阅读 · 今天14:04

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

6+阅读 · 今天13:54

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

3+阅读 · 今天13:46

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

5+阅读 · 今天13:34

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

2+阅读 · 今天13:02

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

2+阅读 · 今天12:07

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

7+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

9+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

8+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

8+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

6+阅读 · 5月4日

相关VIP内容

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer

专知会员服务

35+阅读 · 2023年3月20日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【复旦大学邱锡鹏教授】自然语言处理中的自注意力模型，53页ppt

【复旦大学邱锡鹏教授】自然语言处理中的自注意力模型，53页ppt

专知会员服务

130+阅读 · 2020年9月2日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知会员服务

57+阅读 · 2020年1月12日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关论文

Why Softmax Attention Outperforms Linear Attention

Arxiv

0+阅读 · 3月13日

Rethinking Attention: Polynomial Alternatives to Softmax in Transformers

Arxiv

0+阅读 · 3月13日

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Arxiv

0+阅读 · 3月11日

The Bayesian Geometry of Transformer Attention

Arxiv

0+阅读 · 3月11日

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Arxiv

0+阅读 · 3月10日

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning

Arxiv

0+阅读 · 3月2日

Accelerating Multi-Scale Deformable Attention Using Near-Memory-Processing Architecture

Arxiv

0+阅读 · 3月1日

RMAAT: Astrocyte-Inspired Memory Compression and Replay for Efficient Long-Context Transformers

Arxiv

0+阅读 · 2月28日

Incremental Learning of Sparse Attention Patterns in Transformers

Arxiv

0+阅读 · 2月22日

相关基金

面向新颖成像模式的敏捷卫星姿态滚动优化控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合蛙跳算法的三维重力密度异常快速反演

国家自然科学基金

0+阅读 · 2015年12月31日

柔性磁致伸缩FeGa纳米点阵中涡旋态的应力调控研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同来流条件下旋转圆球绕流特性研究与非定常气动模型构建

国家自然科学基金

1+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

受限胶体中结构与力学性质的动态密度泛函研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于变胞原理的AT自动变速箱换挡变拓扑动力学建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员