线性化注意力中的影响可塑性：非收敛NTK动力学的双重含义 (Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics) - 专知论文

会员服务 ·

0

线性化 · 宽度 · 可塑性 · 注意力机制 · 非线性动力 ·

Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics

翻译：线性化注意力中的影响可塑性：非收敛NTK动力学的双重含义

Jose Marie Antonio Miñoza,Paulo Mario P. Medina,Sebastian C. Ibañez

Understanding the theoretical foundations of attention mechanisms remains challenging due to their complex, non-linear dynamics. This work reveals a fundamental trade-off in the learning dynamics of linearized attention. Using a linearized attention mechanism with exact correspondence to a data-dependent Gram-induced kernel, both empirical and theoretical analysis through the Neural Tangent Kernel (NTK) framework shows that linearized attention does not converge to its infinite-width NTK limit, even at large widths. A spectral amplification result establishes this formally: the attention transformation cubes the Gram matrix's condition number, requiring width $m = Ω(κ^6)$ for convergence, a threshold that exceeds any practical width for natural image datasets. This non-convergence is characterized through influence malleability, the capacity to dynamically alter reliance on training examples. Attention exhibits 6--9$\times$ higher malleability than ReLU networks, with dual implications: its data-dependent kernel can reduce approximation error by aligning with task structure, but this same sensitivity increases susceptibility to adversarial manipulation of training data. These findings suggest that attention's power and vulnerability share a common origin in its departure from the kernel regime.

翻译：理解注意力机制的理论基础因其复杂的非线性动力学而仍然具有挑战性。本研究揭示了线性化注意力学习动力学中的一个基本权衡。通过使用一个与数据相关的Gram诱导核具有精确对应关系的线性化注意力机制，基于神经正切核（NTK）框架的实证和理论分析表明，即使在大宽度下，线性化注意力也不会收敛到其无限宽度的NTK极限。一个谱放大结果正式确立了这一点：注意力变换将Gram矩阵的条件数立方化，要求宽度 $m = Ω(κ^6)$ 才能收敛，这一阈值超过了自然图像数据集上任何实际的宽度。这种非收敛性通过影响可塑性——即动态改变对训练样本依赖程度的能力——来表征。注意力的可塑性比ReLU网络高6--9倍，这具有双重含义：其数据相关的核可以通过与任务结构对齐来减少近似误差，但这种相同的敏感性也增加了对训练数据进行对抗性操纵的易感性。这些发现表明，注意力的强大能力与脆弱性具有共同的根源，即其偏离了核机制。

0

相关内容

线性化

【ICML2022】基于随机注意力机制的可解释和广义图学习

【ICML2022】基于随机注意力机制的可解释和广义图学习

专知会员服务

33+阅读 · 2022年8月7日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

104+阅读 · 2022年3月29日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

卷积神经网络中的注意力机制综述

卷积神经网络中的注意力机制综述

专知会员服务

77+阅读 · 2021年10月22日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

【万字长文】注意力机制可解释大论述

专知会员服务

56+阅读 · 2020年11月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

突触可塑性对神经元系统同步和稳定性的影响

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性偏微分方程解的渐近性态研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Why Softmax Attention Outperforms Linear Attention

Arxiv

0+阅读 · 3月13日

FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation

Arxiv

0+阅读 · 2月27日

Selective Synchronization Attention

Arxiv

0+阅读 · 2月16日

HLA: Hadamard Linear Attention

Arxiv

0+阅读 · 2月12日

WildCat: Near-Linear Attention in Theory and Practice

Arxiv

0+阅读 · 2月10日

Revisiting Transformers with Insights from Image Filtering and Boosting

Arxiv

0+阅读 · 2月8日

Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability

Arxiv

0+阅读 · 2月7日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Arxiv

0+阅读 · 2月4日

A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

注意力机制

非线性动力

最新内容

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

专知会员服务

4+阅读 · 4月17日

美军“数据2030”概念设想：数字化杀伤链统一标准

美军“数据2030”概念设想：数字化杀伤链统一标准

专知会员服务

3+阅读 · 4月17日

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

专知会员服务

4+阅读 · 4月17日

前沿军事人工智能系统的理解与控制（报告1.8万字）

前沿军事人工智能系统的理解与控制（报告1.8万字）

专知会员服务

2+阅读 · 4月17日

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

《机器学习赋能情报工作：国家安全的机遇与风险》（报告）

专知会员服务

3+阅读 · 4月17日

《人工智能赋能电磁战》（报告）

《人工智能赋能电磁战》（报告）

专知会员服务

2+阅读 · 4月17日

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

《海基核巡航导弹（SLCM-N）部署后的威慑动态与操作要求》（报告）

专知会员服务

2+阅读 · 4月17日

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

超越卫星通信：战术无线电与网络防御如何锻造联盟韧性（美军报告）

专知会员服务

2+阅读 · 4月17日

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

1+阅读 · 4月17日

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

1+阅读 · 4月17日

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

4+阅读 · 4月17日

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

6+阅读 · 4月17日

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

9+阅读 · 4月17日

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

4+阅读 · 4月17日

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

3+阅读 · 4月17日

相关VIP内容

【ICML2022】基于随机注意力机制的可解释和广义图学习

【ICML2022】基于随机注意力机制的可解释和广义图学习

专知会员服务

33+阅读 · 2022年8月7日

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

「深度学习视觉注意力」最新2022研究综述，概述50种软硬注意力机制方法

专知会员服务

113+阅读 · 2022年4月20日

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

104+阅读 · 2022年3月29日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

卷积神经网络中的注意力机制综述

卷积神经网络中的注意力机制综述

专知会员服务

77+阅读 · 2021年10月22日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

【万字长文】注意力机制可解释大论述

专知会员服务

56+阅读 · 2020年11月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

美军“数据2030”概念设想：数字化杀伤链统一标准

前沿军事人工智能系统的理解与控制（报告1.8万字）

延伸海上作战中心的触角：如何保持舰队从陆地到海洋的连通

《自主集群系统的战略架构：多域集成、韧性及海上作战框架（2025-2035）》（2026报告）

相关资讯

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

干货！自然语言处理中的自注意力机制！

干货！自然语言处理中的自注意力机制！

全球人工智能

11+阅读 · 2018年3月27日

相关论文

Why Softmax Attention Outperforms Linear Attention

Arxiv

0+阅读 · 3月13日

FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation

Arxiv

0+阅读 · 2月27日

Selective Synchronization Attention

Arxiv

0+阅读 · 2月16日

HLA: Hadamard Linear Attention

Arxiv

0+阅读 · 2月12日

WildCat: Near-Linear Attention in Theory and Practice

Arxiv

0+阅读 · 2月10日

Revisiting Transformers with Insights from Image Filtering and Boosting

Arxiv

0+阅读 · 2月8日

Momentum Attention: The Physics of In-Context Learning and Spectral Forensics for Mechanistic Interpretability

Arxiv

0+阅读 · 2月7日

ZeroS: Zero-Sum Linear Attention for Efficient Transformers

Arxiv

0+阅读 · 2月5日

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Arxiv

0+阅读 · 2月4日

A Provable Expressiveness Hierarchy in Hybrid Linear-Full Attention

Arxiv

0+阅读 · 2月2日

相关基金

基于动态反馈的时滞非线性系统控制理论研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

突触可塑性对神经元系统同步和稳定性的影响

国家自然科学基金

0+阅读 · 2015年12月31日

非线性压缩感知问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性偏微分方程解的渐近性态研究

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员