Gradient descent in deep learning may operate at the edge of stability (EoS), a regime in which the largest eigenvalue of the loss Hessian hovers near the stability threshold $2/η$, where $η$ is the learning rate. Classical analysis tools such as gradient flow and the descent lemma do not apply here, motivating the search for a continuous-time model valid at EoS. We propose Edge Flow, a system of three coupled ordinary differential equations that provides a tractable, faithful, and predictive model of gradient descent dynamics at EoS. Edge Flow decomposes the dynamics into a center, an oscillation direction, and an oscillation magnitude. The center follows a modified gradient flow on a symmetrized loss; the direction tracks a top eigenvector of the Hessian via Rayleigh quotient dynamics; and the magnitude grows or decays exponentially depending on whether the sharpness exceeds or falls below the threshold $2/η$. Crucially, sharpness stabilization emerges from the coupled dynamics via a self-stabilization feedback loop. Discretizing Edge Flow only requires two gradient evaluations and one Hessian--vector product at each iteration. We demonstrate empirically that Edge Flow tracks the dynamics of gradient descent at least as faithfully as previously proposed continuous-time EoS models, while in addition resolving the oscillation of the sharpness at the onset of EoS, and that it provides a principled framework for understanding and mitigating instabilities in this regime.


翻译:深度学习中的梯度下降可能在“边缘稳定性”(EoS)区域运行,此时损失Hessian矩阵的最大特征值在稳定阈值$2/η$($η$为学习率)附近波动。经典分析工具(如梯度流和下降引理)在此区域失效,因此需要寻找适用于EoS的连续时间模型。我们提出“边缘流”(Edge Flow)——一个由三个常微分方程耦合组成的系统,能够可解析、忠实且可预测地描述EoS下的梯度下降动力学。边缘流将动力学分解为中心、振荡方向和振荡幅度三个分量:中心遵循对称化损失上的修正梯度流;方向通过Rayleigh商动力学追踪Hessian矩阵的最大特征向量;幅度则根据尖锐度是否超过或低于阈值$2/η$呈指数增长或衰减。关键的是,尖锐度稳定化通过耦合动力学中的自稳定反馈回路自发产生。对边缘流进行离散化时,每次迭代仅需两次梯度计算和一次Hessian-向量乘积。我们通过实验证明:边缘流对梯度下降动力学的跟踪精度至少不低于已有的EoS连续时间模型,同时能够解析EoS起始阶段尖锐度的振荡行为,并为理解和缓解该区域的不稳定性提供理论框架。

0
下载
关闭预览

相关内容

深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
面向实时视频流分析的边缘计算技术
专知会员服务
79+阅读 · 2022年6月5日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
124+阅读 · 2020年3月30日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
【边缘计算】边缘计算面临的问题
产业智能官
17+阅读 · 2019年5月31日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员