On the Stability of Nonlinear Dynamics in GD and SGD: Beyond Quadratic Potentials - 专知论文

会员服务 ·

0

梯度 · 非线性动力 · 非线性动力学 · 极小值 · 分析 ·

On the Stability of Nonlinear Dynamics in GD and SGD: Beyond Quadratic Potentials

翻译：论梯度下降与随机梯度下降中非线性动力学的稳定性：超越二次势能

Rotem Mulayoff,Sebastian U. Stich

from arxiv, Preprint

The dynamical stability of the iterates during training plays a key role in determining the minima obtained by optimization algorithms. For example, stable solutions of gradient descent (GD) correspond to flat minima, which have been associated with favorable features. While prior work often relies on linearization to determine stability, it remains unclear whether linearized dynamics faithfully capture the full nonlinear behavior. Recent work has shown that GD may stably oscillate near a linearly unstable minimum and still converge once the step size decays, indicating that linear analysis can be misleading. In this work, we explicitly study the effect of nonlinear terms. Specifically, we derive an exact criterion for stable oscillations of GD near minima in the multivariate setting. Our condition depends on high-order derivatives, generalizing existing results. Extending the analysis to stochastic gradient descent (SGD), we show that nonlinear dynamics can diverge in expectation even if a single batch is unstable. This implies that stability can be dictated by a single batch that oscillates unstably, rather than an average effect, as linear analysis suggests. Finally, we prove that if all batches are linearly stable, the nonlinear dynamics of SGD are stable in expectation.

翻译：训练过程中迭代点的动力学稳定性对优化算法所获极小值具有关键影响。例如，梯度下降（GD）的稳定解对应平坦极小值，这类解常被认为具有优良特性。现有研究多依赖线性化方法判定稳定性，但线性化动力学能否忠实反映完整非线性行为仍不明确。近期研究表明，GD可能在线性不稳定极小值附近稳定振荡，并在步长衰减后依然收敛，这说明线性分析可能产生误导。本研究通过显式分析非线性项的作用，在多元设定下推导出GD在极小值附近稳定振荡的精确判据。该条件依赖于高阶导数，推广了现有结论。将分析拓展至随机梯度下降（SGD）后，我们发现即使单个批次存在不稳定性，非线性动力学在期望意义上仍可能发散。这表明稳定性可能由单个不稳定振荡的批次决定，而非线性分析所暗示的平均效应。最后我们证明：若所有批次均线性稳定，则SGD的非线性动力学在期望意义下保持稳定。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

一类非线性发展方程的定性理论

国家自然科学基金

0+阅读 · 2014年12月31日

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison

Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison

Arxiv

0+阅读 · 2月19日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月16日

On the Surprising Effectiveness of Spectral Clipping in Learning Stable Linear and Latent-Linear Dynamical Systems

Arxiv

0+阅读 · 2月14日

A Function-Space Stability Boundary for Generalization in Interpolating Learning Systems

Arxiv

0+阅读 · 2月10日

Training in reverse: How iteration order influences convergence and stability in deep learning

Arxiv

0+阅读 · 2月6日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

非线性动力

非线性动力学

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

5+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

9+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

8+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

【伯克利博士论文】优化与机器学习中的结构驱动算法设计，420页pdf

专知会员服务

45+阅读 · 2023年5月10日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison

Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison

Arxiv

0+阅读 · 2月19日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月16日

On the Surprising Effectiveness of Spectral Clipping in Learning Stable Linear and Latent-Linear Dynamical Systems

Arxiv

0+阅读 · 2月14日

A Function-Space Stability Boundary for Generalization in Interpolating Learning Systems

Arxiv

0+阅读 · 2月10日

Training in reverse: How iteration order influences convergence and stability in deep learning

Arxiv

0+阅读 · 2月6日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

一类不确定非线性大系统的非光滑分散控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性动力系统的最简正规形及其相关问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定非凸规划的稳健全局优化方法的研究

国家自然科学基金

1+阅读 · 2014年12月31日

一类非线性发展方程的定性理论

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员