Hyperparameter tuning is one of the essential steps to guarantee the convergence of machine learning models. We argue that intuition about the optimal choice of hyperparameters for stochastic gradient descent can be obtained by studying a neural network's phase diagram, in which each phase is characterised by distinctive dynamics of the singular values of weight matrices. Taking inspiration from disordered systems, we start from the observation that the loss landscape of a multilayer neural network with mean squared error can be interpreted as a disordered system in feature space, where the learnt features are mapped to soft spin degrees of freedom, the initial variance of the weight matrices is interpreted as the strength of the disorder, and temperature is given by the ratio of the learning rate and the batch size. As the model is trained, three phases can be identified, in which the dynamics of weight matrices is qualitatively different. Employing a Langevin equation for stochastic gradient descent, previously derived using Dyson Brownian motion, we demonstrate that the three dynamical regimes can be classified effectively, providing practical guidance for the choice of hyperparameters of the optimiser.


翻译:超参数调优是保证机器学习模型收敛的关键步骤之一。我们认为,通过研究神经网络的相图可以获得关于随机梯度下降最优超参数选择的直观理解,其中每个相的特征在于权重矩阵奇异值的独特动力学行为。受无序系统启发,我们从以下观察出发:采用均方误差的多层神经网络的损失景观可被解释为特征空间中的无序系统,其中学习到的特征映射为软自旋自由度,权重矩阵的初始方差被解释为无序强度,而温度则由学习率与批大小的比值给出。在模型训练过程中,可识别出三个相,其中权重矩阵的动力学行为存在本质差异。利用先前通过Dyson布朗运动推导的随机梯度下降朗之万方程,我们证明这三种动力学机制可被有效分类,从而为优化器的超参数选择提供实用指导。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 2025年5月25日
【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法
专知会员服务
22+阅读 · 2023年10月11日
专知会员服务
31+阅读 · 2021年7月19日
专知会员服务
51+阅读 · 2021年5月19日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
121+阅读 · 2020年7月9日
神经网络的基础数学,95页pdf
专知
29+阅读 · 2022年1月23日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
181+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【ICML2025】时序分布漂移下的自适应估计与学习
专知会员服务
12+阅读 · 2025年5月25日
【NeurIPS2023】图神经网络的对抗性鲁棒性:哈密顿方法
专知会员服务
22+阅读 · 2023年10月11日
专知会员服务
31+阅读 · 2021年7月19日
专知会员服务
51+阅读 · 2021年5月19日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
121+阅读 · 2020年7月9日
相关资讯
神经网络的基础数学,95页pdf
专知
29+阅读 · 2022年1月23日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
误差反向传播——CNN
统计学习与视觉计算组
31+阅读 · 2018年7月12日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员