Phase diagram and eigenvalue dynamics of stochastic gradient descent in multilayer neural networks - 专知论文

会员服务 ·

0

梯度 · 随机梯度下降 · 超参数 · 无序 · 神经网络 ·

2025 年 11 月 18 日

Phase diagram and eigenvalue dynamics of stochastic gradient descent in multilayer neural networks

翻译：多层神经网络中随机梯度下降的相图与特征值动力学

Chanju Park,Biagio Lucini,Gert Aarts

from arxiv, 27 pages, many figures, references updated

Hyperparameter tuning is one of the essential steps to guarantee the convergence of machine learning models. We argue that intuition about the optimal choice of hyperparameters for stochastic gradient descent can be obtained by studying a neural network's phase diagram, in which each phase is characterised by distinctive dynamics of the singular values of weight matrices. Taking inspiration from disordered systems, we start from the observation that the loss landscape of a multilayer neural network with mean squared error can be interpreted as a disordered system in feature space, where the learnt features are mapped to soft spin degrees of freedom, the initial variance of the weight matrices is interpreted as the strength of the disorder, and temperature is given by the ratio of the learning rate and the batch size. As the model is trained, three phases can be identified, in which the dynamics of weight matrices is qualitatively different. Employing a Langevin equation for stochastic gradient descent, previously derived using Dyson Brownian motion, we demonstrate that the three dynamical regimes can be classified effectively, providing practical guidance for the choice of hyperparameters of the optimiser.

翻译：超参数调优是保证机器学习模型收敛的关键步骤之一。我们认为，通过研究神经网络的相图可以获得关于随机梯度下降最优超参数选择的直观理解，其中每个相的特征在于权重矩阵奇异值的独特动力学行为。受无序系统启发，我们从以下观察出发：采用均方误差的多层神经网络的损失景观可被解释为特征空间中的无序系统，其中学习到的特征映射为软自旋自由度，权重矩阵的初始方差被解释为无序强度，而温度则由学习率与批大小的比值给出。在模型训练过程中，可识别出三个相，其中权重矩阵的动力学行为存在本质差异。利用先前通过Dyson布朗运动推导的随机梯度下降朗之万方程，我们证明这三种动力学机制可被有效分类，从而为优化器的超参数选择提供实用指导。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【ICML2025】时序分布漂移下的自适应估计与学习

【ICML2025】时序分布漂移下的自适应估计与学习

专知会员服务

12+阅读 · 2025年5月25日

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

专知会员服务

14+阅读 · 2024年9月28日

【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法

【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法

专知会员服务

22+阅读 · 2023年10月11日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

【ICML2021】动量残差神经网络

专知会员服务

31+阅读 · 2021年7月19日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【WSDM2021】拓扑去噪的鲁棒图神经网络

【WSDM2021】拓扑去噪的鲁棒图神经网络

专知会员服务

27+阅读 · 2020年11月14日

【KDD2020】自适应多通道图卷积神经网络

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

神经网络的基础数学，95页pdf

神经网络的基础数学，95页pdf

专知

29+阅读 · 2022年1月23日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

开放知识图谱

21+阅读 · 2020年4月24日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

45+阅读 · 2019年10月28日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

算法与数学之美

13+阅读 · 2019年1月23日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

基于力学-生物化学信号通路的组织工程骨多尺度建模

国家自然科学基金

2+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于非线性动力学的复杂网络结构识别及其在力学系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks

Arxiv

10+阅读 · 2022年2月10日

VIP会员

文章信息

相关主题

随机梯度下降

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【ICML2025】时序分布漂移下的自适应估计与学习

【ICML2025】时序分布漂移下的自适应估计与学习

专知会员服务

12+阅读 · 2025年5月25日

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

专知会员服务

14+阅读 · 2024年9月28日

【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法

【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法

专知会员服务

22+阅读 · 2023年10月11日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

【NeurIPS 2021 】学习理论(有时)可以解释图神经网络中的泛化

专知会员服务

30+阅读 · 2021年12月13日

【ICML2021】动量残差神经网络

专知会员服务

31+阅读 · 2021年7月19日

【ICML2021】基于小波变换的图神经网络

专知会员服务

51+阅读 · 2021年5月19日

【WSDM2021】拓扑去噪的鲁棒图神经网络

【WSDM2021】拓扑去噪的鲁棒图神经网络

专知会员服务

27+阅读 · 2020年11月14日

【KDD2020】自适应多通道图卷积神经网络

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

神经网络的基础数学，95页pdf

神经网络的基础数学，95页pdf

专知

29+阅读 · 2022年1月23日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

开放知识图谱

21+阅读 · 2020年4月24日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

45+阅读 · 2019年10月28日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

算法与数学之美

13+阅读 · 2019年1月23日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

误差反向传播——CNN

误差反向传播——CNN

统计学习与视觉计算组

31+阅读 · 2018年7月12日

相关论文

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

87+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

155+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

Characterizing and overcoming the greedy nature of learning in multi-modal deep neural networks

Arxiv

10+阅读 · 2022年2月10日

相关基金

基于力学-生物化学信号通路的组织工程骨多尺度建模

国家自然科学基金

2+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

一般误差分布下若干半参数模型的复合分位数方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于非线性动力学的复杂网络结构识别及其在力学系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员