The Edge of Stability (EoS) is a phenomenon where the sharpness (largest eigenvalue) of the Hessian approaches and then hovers near the stability threshold $2/η$ during gradient descent (GD) with step size $η$. Despite (apparently) violating classical smoothness assumptions, EoS has been widely observed in deep learning, but its theoretical foundations remain incomplete. We provide an interpretation of EoS through the lens of Directional Smoothness [Mishkin et al., 2024]. This interpretation naturally extends to non-Euclidean norms, which we use to define generalized sharpness under an arbitrary norm. Our generalized sharpness measure includes previously studied vanilla GD and preconditioned GD as special cases, as well as methods for which EoS has not been studied, such as $\ell_{\infty}$-descent, Block CD, Spectral GD, and their normalized versions. Through experiments on neural networks, we show that non-Euclidean GD with our generalized sharpness also exhibits progressive sharpening followed by oscillations around or above the threshold $2/η$. Practically, our framework provides a geometry-aware spectral diagnostic that can be applied across a broad class of non-Euclidean gradient methods.


翻译:稳定性边缘(EoS)是一种现象,其中Hessian矩阵的锐度(最大特征值)在梯度下降(GD)中接近并随后徘徊在步长η对应的稳定性阈值2/η附近。尽管(表面上)违背了经典光滑性假设,但EoS已在深度学习中广泛观察到,其理论基础仍不完整。我们通过方向光滑性[Mishkin等人,2024]的视角提供了对EoS的解释。该解释自然扩展到非欧几里得范数,我们以此在任意范数下定义广义锐度。我们的广义锐度度量将先前研究的普通GD和预处理GD作为特例,也包括尚未研究EoS的方法,如ℓ∞下降、块坐标下降(Block CD)、谱梯度下降(Spectral GD)及其归一化版本。通过神经网络实验,我们展示了具有广义锐度的非欧几里得GD也表现出渐进锐化,随后在阈值2/η附近或之上振荡。在实践中,我们的框架提供了一种几何感知的谱诊断工具,可应用于广泛类别的非欧几里得梯度方法。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
《为高度不确定环境中的边缘系统定义参考架构》
专知会员服务
31+阅读 · 2024年7月11日
【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《为高度不确定环境中的边缘系统定义参考架构》
专知会员服务
31+阅读 · 2024年7月11日
【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
相关资讯
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
边缘计算(一)——边缘计算的兴起
大数据和云计算技术
12+阅读 · 2018年12月25日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员