Multiplicative gating is widely used in neural architectures and has recently been applied to attention layers to improve performance and training stability in large language models. Despite the success of gated attention, the mathematical implications of gated attention mechanisms remain poorly understood. We study attention through the geometry of its representations by modeling outputs as mean parameters of Gaussian distributions and analyzing the induced Fisher--Rao geometry. We show that ungated attention operator is restricted to intrinsically flat statistical manifolds due to its affine structure, while multiplicative gating enables non-flat geometries, including positively curved manifolds that are unattainable in the ungated setting. These results establish a geometric expressivity gap between ungated and gated attention. Empirically, we show that gated models exhibit higher representation curvature and improved performance on tasks requiring nonlinear decision boundaries whereas they provide no consistent advantage on tasks with linear decision boundaries. Furthermore, we identify a structured regime in which curvature accumulates under composition, yielding a systematic depth amplification effect.


翻译:乘法门控广泛用于神经架构,近期被应用于大型语言模型的注意力层以提升性能与训练稳定性。尽管门控注意力已取得显著成功,其背后的数学机理仍缺乏理解。我们通过将输出建模为高斯分布的均值参数,并分析由此诱导的Fisher-Rao几何结构,从表征几何角度研究注意力机制。研究表明:无门控注意力算子因其仿射结构被限制于内在平坦的统计流形,而乘法门控能够实现非平坦几何,包括无门控设置下无法达到的正曲率流形。这些结果确立了无门控与门控注意力之间存在的几何表达性差异。实验表明:门控模型展现出更高的表征曲率,在需要非线性决策边界的任务中性能更优,但在线性决策边界任务中未见持续优势。此外,我们识别出一种结构化机制——曲率在复合运算中累积,产生系统性的深度放大效应。

0
下载
关闭预览

相关内容

扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
基于注意力机制的态势要素推荐技术
专知会员服务
27+阅读 · 2025年2月14日
强化学习中的注意力机制研究综述
专知会员服务
62+阅读 · 2024年2月24日
卷积神经网络中的注意力机制综述
专知会员服务
77+阅读 · 2021年10月22日
注意力机制综述
专知会员服务
210+阅读 · 2021年1月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
注意力机制综述(中文版)
专知
23+阅读 · 2021年1月26日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
【干货】注意力机制(Attention)最新综述论文及相关源码
GAN生成式对抗网络
11+阅读 · 2018年11月16日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
4+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
23+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
5+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
17+阅读 · 5月25日
相关VIP内容
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
基于注意力机制的态势要素推荐技术
专知会员服务
27+阅读 · 2025年2月14日
强化学习中的注意力机制研究综述
专知会员服务
62+阅读 · 2024年2月24日
卷积神经网络中的注意力机制综述
专知会员服务
77+阅读 · 2021年10月22日
注意力机制综述
专知会员服务
210+阅读 · 2021年1月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员