Softmax Self-Attention (SSA) is a key component of Transformer architectures. However, when utilised within skipless architectures, which aim to improve representation learning, recent work has highlighted the inherent instability of SSA due to inducing rank collapse and poorly-conditioned Jacobians. In this work, we design a novel attention mechanism: Orthogonal Self-Attention (OSA), which aims to bypass these issues with SSA, in order to allow for (non-causal) Transformers without skip connections and normalisation layers to be more easily trained. In particular, OSA parametrises the attention matrix to be orthogonal via mapping a skew-symmetric matrix, formed from query-key values, through the matrix exponential. We show that this can be practically implemented, by exploiting the low-rank structure of our query-key values, resulting in the computational complexity and memory cost of OSA scaling linearly with sequence length. Furthermore, we derive an initialisation scheme for which we prove ensures that the Jacobian of OSA is well-conditioned.


翻译:Softmax自注意力(SSA)是Transformer架构的核心组件。然而,当应用于旨在提升表征学习的无跳跃连接架构时,近期研究指出SSA存在内在不稳定性,因其会引发秩崩溃及病态雅可比矩阵。本文设计了一种新颖的注意力机制:正交自注意力(OSA),旨在规避SSA的上述问题,从而使(非因果)Transformer无需跳跃连接与归一化层即可更易于训练。具体而言,OSA通过将查询-键值构成的斜对称矩阵映射至矩阵指数,将注意力矩阵参数化为正交矩阵。我们证明该机制可通过利用查询-键值的低秩结构实现高效计算,使得OSA的计算复杂度与内存开销随序列长度呈线性增长。此外,我们推导出一种初始化方案,并证明该方案能确保OSA的雅可比矩阵处于良态条件。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【AAAI2022】注意力机制的快速蒙特卡罗近似
专知会员服务
20+阅读 · 2022年2月5日
专知会员服务
37+阅读 · 2021年5月15日
干货 | NLP中的self-attention【自-注意力】机制
机器学习算法与Python学习
12+阅读 · 2018年4月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 1月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员