We study the implicit bias of momentum-based optimizers on homogeneous models. We first extend existing results on the implicit bias of steepest descent in homogeneous models to normalized steepest descent with an optional learning rate schedule. We then show that for smooth homogeneous models, momentum steepest descent algorithms like Muon (spectral norm), MomentumGD ($\ell_2$ norm), and Signum ($\ell_\infty$ norm) are approximate steepest descent trajectories under a decaying learning rate schedule, proving that these algorithms too have a bias towards KKT points of the corresponding margin maximization problem. We extend the analysis to Adam (without the stability constant), which maximizes the $\ell_\infty$ margin, and to Muon-Signum and Muon-Adam, which maximize a hybrid norm. Our experiments corroborate the theory and show that the identity of the margin maximized depends on the choice of optimizer. Overall, our results extend earlier lines of work on steepest descent in homogeneous models and momentum-based optimizers in linear models.


翻译:我们研究了基于动量的优化器在齐次模型上的隐式偏差。首先,我们将齐次模型中关于最速下降法隐式偏差的现有结果推广到具有可选学习率调度的归一化最速下降法。随后,我们证明对于光滑齐次模型,在衰减学习率调度下,诸如Muon(谱范数)、MomentumGD($\ell_2$范数)和Signum($\ell_\infty$范数)等动量最速下降算法近似于最速下降轨迹,从而证明这些算法同样偏向于对应间隔最大化问题的KKT点。我们将分析扩展到Adam(不含稳定性常数),它最大化$\ell_\infty$间隔;以及Muon-Signum和Muon-Adam,它们最大化混合范数。实验验证了理论,并表明所最大化的间隔特性取决于优化器的选择。总体而言,我们的研究结果扩展了先前关于齐次模型中最速下降法以及线性模型中基于动量的优化器的工作脉络。

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
专知会员服务
12+阅读 · 2021年7月27日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
相关VIP内容
专知会员服务
12+阅读 · 2021年7月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员