When do spectral gradient updates help in deep learning? - 专知论文

会员服务 ·

0

梯度 · Transformer · 优化器 · 梯度下降法 · 步长 ·

When do spectral gradient updates help in deep learning?

翻译：谱梯度更新何时有助于深度学习？

Damek Davis,Dmitriy Drusvyatskiy

Spectral gradient methods, such as the recently popularized Muon optimizer, are a promising alternative to standard Euclidean gradient descent for training deep neural networks and transformers, but it is still unclear in which regimes they are expected to perform better. We propose a simple layerwise condition that predicts when a spectral update yields a larger decrease in the loss than a Euclidean gradient step. This condition compares, for each parameter block, the squared nuclear-to-Frobenius ratio of the gradient to the stable rank of the incoming activations. To understand when this condition may be satisfied, we first prove that post-activation matrices have low stable rank at Gaussian initialization in random feature regression, feedforward networks, and transformer blocks. In spiked random feature models we then show that, after a short burn-in, the Euclidean gradient's nuclear-to-Frobenius ratio grows with the data dimension while the stable rank of the activations remains bounded, so the predicted advantage of spectral updates scales with dimension. We validate these predictions in synthetic regression experiments and in NanoGPT-scale language model training, where we find that intermediate activations have low-stable-rank throughout training and the corresponding gradients maintain large nuclear-to-Frobenius ratios. Together, these results identify conditions for spectral gradient methods, such as Muon, to be effective in training deep networks and transformers.

翻译：谱梯度方法（例如近期流行的Muon优化器）是训练深度神经网络和Transformer的一种有前景的替代方案，可替代标准的欧几里得梯度下降法，但目前尚不清楚在何种情况下谱梯度方法有望表现更优。我们提出一个简单的逐层条件，用于预测谱更新何时比欧几里得梯度步长能带来更大的损失下降。该条件针对每个参数块，比较梯度的平方核范数与Frobenius范数之比与输入激活矩阵的稳定秩。为理解该条件何时可能成立，我们首先证明在随机特征回归、前馈网络和Transformer模块中，高斯初始化后的激活后矩阵具有低稳定秩。随后在尖峰随机特征模型中，我们证明经过短暂预热期后，欧几里得梯度的核-Frobenius比随数据维度增长，而激活矩阵的稳定秩保持有界，因此谱更新的预测优势随维度缩放。我们在合成回归实验和NanoGPT规模的语言模型训练中验证了这些预测，发现中间激活矩阵在整个训练过程中保持低稳定秩，且对应梯度维持较大的核-Frobenius比。综上，这些结果明确了谱梯度方法（如Muon）在训练深度网络和Transformer中有效的条件。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

基于知识图谱的深度学习推荐系统研究，21页pdf，Deep Learning on Knowledge Graph for Recommender System: A Survey

基于知识图谱的深度学习推荐系统研究，21页pdf，Deep Learning on Knowledge Graph for Recommender System: A Survey

专知会员服务

159+阅读 · 2020年4月2日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

深度学习的冬天什么时候到来？

深度学习的冬天什么时候到来？

中国计算机学会

14+阅读 · 2019年7月17日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Learning to Discover Iterative Spectral Algorithms

Arxiv

0+阅读 · 2月10日

Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory

Arxiv

0+阅读 · 2月10日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 2月8日

Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization

Arxiv

0+阅读 · 2月6日

Are Deep Learning Based Hybrid PDE Solvers Reliable? Why Training Paradigms and Update Strategies Matter

Arxiv

0+阅读 · 2月6日

PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective

Arxiv

0+阅读 · 2月5日

Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval

Arxiv

0+阅读 · 1月30日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 1月26日

Preconditioning Benefits of Spectral Orthogonalization in Muon

Arxiv

0+阅读 · 1月20日

Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

梯度下降法

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

10+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

【干货】最新《深度学习优化导论:基于梯度的优化》，252页ppt

专知会员服务

63+阅读 · 2020年11月29日

基于知识图谱的深度学习推荐系统研究，21页pdf，Deep Learning on Knowledge Graph for Recommender System: A Survey

基于知识图谱的深度学习推荐系统研究，21页pdf，Deep Learning on Knowledge Graph for Recommender System: A Survey

专知会员服务

159+阅读 · 2020年4月2日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

深度学习的冬天什么时候到来？

深度学习的冬天什么时候到来？

中国计算机学会

14+阅读 · 2019年7月17日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Learning to Discover Iterative Spectral Algorithms

Arxiv

0+阅读 · 2月10日

Clarifying Shampoo: Adapting Spectral Descent to Stochasticity and the Parameter Trajectory

Arxiv

0+阅读 · 2月10日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 2月8日

Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization

Arxiv

0+阅读 · 2月6日

Are Deep Learning Based Hybrid PDE Solvers Reliable? Why Training Paradigms and Update Strategies Matter

Arxiv

0+阅读 · 2月6日

PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective

Arxiv

0+阅读 · 2月5日

Spectral Gradient Descent Mitigates Anisotropy-Driven Misalignment: A Case Study in Phase Retrieval

Arxiv

0+阅读 · 1月30日

Rank-1 Approximation of Inverse Fisher for Natural Policy Gradients in Deep Reinforcement Learning

Arxiv

0+阅读 · 1月26日

Preconditioning Benefits of Spectral Orthogonalization in Muon

Arxiv

0+阅读 · 1月20日

Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization

Arxiv

0+阅读 · 1月19日

相关基金

基于深度信念网络的高光谱遥感影像变化检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员