Clustering in Deep Stochastic Transformers - 专知论文

会员服务 ·

0

词元分析器 · 初始化 · 噪声 · Transformer · 随机初始化 ·

Clustering in Deep Stochastic Transformers

翻译：深度随机Transformer中的聚类现象

Lev Fedorov,Michaël E. Sander,Romuald Elie,Pierre Marion,Mathieu Laurière

from arxiv, 24 pages

Transformers have revolutionized deep learning across various domains but understanding the precise token dynamics remains a theoretical challenge. Existing theories of deep Transformers with layer normalization typically predict that tokens cluster to a single point; however, these results rely on deterministic weight assumptions, which fail to capture the standard initialization scheme in Transformers. In this work, we show that accounting for the intrinsic stochasticity of random initialization alters this picture. More precisely, we analyze deep Transformers where noise arises from the random initialization of value matrices. Under diffusion scaling and token-wise RMS normalization, we prove that, as the number of Transformer layers goes to infinity, the discrete token dynamics converge to an interacting-particle system on the sphere where tokens are driven by a \emph{common} matrix-valued Brownian noise. In this limit, we show that initialization noise prevents the collapse to a single cluster predicted by deterministic models. For two tokens, we prove a phase transition governed by the interaction strength and the token dimension: unlike deterministic attention flows, antipodal configurations become attracting with positive probability. Numerical experiments confirm the predicted transition, reveal that antipodal formations persist for more than two tokens, and demonstrate that suppressing the intrinsic noise degrades accuracy.

翻译：Transformer模型已在多个领域彻底改变了深度学习，但精确理解其token动态机制仍是一个理论难题。现有关于带层归一化的深度Transformer的理论通常预测token会聚集到单一极点；然而，这些结论依赖于确定性的权重假设，未能捕捉Transformer中标准的初始化方案。本研究表明，考虑随机初始化固有的随机性将改变这一图景。具体而言，我们分析了由值矩阵随机初始化产生噪声的深度Transformer模型。在扩散尺度与token级RMS归一化条件下，我们证明当Transformer层数趋于无穷时，离散token动态会收敛到球面上的一个相互作用粒子系统，其中token受到一个\emph{共同}的矩阵值布朗噪声驱动。在此极限下，我们证明初始化噪声能阻止确定性模型所预测的向单一簇的坍缩。针对两个token的情形，我们证明了由相互作用强度与token维度控制的相变现象：与确定性注意力流不同，对映构型以正概率成为吸引子。数值实验证实了预测的相变，揭示了对映构型在多于两个token时依然存在，并证明抑制固有噪声会导致准确率下降。

0

相关内容

词元分析器

词元分析器

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

随机变换及相关倒向随机微分方程理论与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机反应扩散种群模型动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics

Arxiv

0+阅读 · 2月9日

Explaining Grokking in Transformers through the Lens of Inductive Bias

Arxiv

0+阅读 · 2月6日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Parity, Sensitivity, and Transformers

Arxiv

0+阅读 · 2月5日

Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting

Arxiv

0+阅读 · 2月5日

Transformers can do Bayesian Clustering

Arxiv

0+阅读 · 2月3日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

Finite-Time Analysis of Gradient Descent for Shallow Transformers

Arxiv

0+阅读 · 1月23日

Knee-Deep in C-RASP: A Transformer Depth Hierarchy

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

词元分析器

随机初始化

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

2+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

2+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

5+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

3+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

10+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

8+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 4月24日

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 4月24日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

Google最新《高效Transformers》2022综述大全，阐述九大类提升Transformers效率方式

专知会员服务

97+阅读 · 2022年3月18日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

相关论文

Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics

Arxiv

0+阅读 · 2月9日

Explaining Grokking in Transformers through the Lens of Inductive Bias

Arxiv

0+阅读 · 2月6日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Parity, Sensitivity, and Transformers

Arxiv

0+阅读 · 2月5日

Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting

Arxiv

0+阅读 · 2月5日

Transformers can do Bayesian Clustering

Arxiv

0+阅读 · 2月3日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

Finite-Time Analysis of Gradient Descent for Shallow Transformers

Arxiv

0+阅读 · 1月23日

Knee-Deep in C-RASP: A Transformer Depth Hierarchy

Arxiv

0+阅读 · 1月19日

相关基金

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

随机变换及相关倒向随机微分方程理论与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

随机反应扩散种群模型动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员