In this paper, we examine the long-run distribution of stochastic gradient descent (SGD) in general, non-convex problems. Specifically, we seek to understand which regions of the problem's state space are more likely to be visited by SGD, and by how much. Using an approach based on the theory of large deviations and randomly perturbed dynamical systems, we show that the long-run distribution of SGD resembles the Boltzmann-Gibbs distribution of equilibrium thermodynamics with temperature equal to the method's step-size and energy levels determined by the problem's objective and the statistics of the noise. In particular, we show that, in the long run, (a) the problem's critical region is visited exponentially more often than any non-critical region; (b) the iterates of SGD are exponentially concentrated around the problem's minimum energy state (which does not always coincide with the global minimum of the objective); (c) all other connected components of critical points are visited with frequency that is exponentially proportional to their energy level; and, finally (d) any component of local maximizers or saddle points is "dominated" by a component of local minimizers which is visited exponentially more often.


翻译:本文探讨了随机梯度下降(SGD)在一般非凸问题中的长期分布特性。具体而言,我们旨在理解SGD更可能访问问题状态空间中的哪些区域及其访问频率差异。基于大偏差理论与随机扰动动力系统的方法,我们证明SGD的长期分布类似于平衡态热力学中的玻尔兹曼-吉布斯分布,其中温度等于方法的步长,能量水平由问题目标函数与噪声统计特性共同决定。特别地,我们证明在长期运行中:(a)问题的临界区域被访问的概率呈指数级高于任何非临界区域;(b)SGD的迭代结果呈指数级集中在问题的最小能量状态附近(该状态并不总是与目标函数的全局最小值重合);(c)所有其他连通分量临界点被访问的频率与其能量水平呈指数级正相关;最后(d)任何局部极大值点或鞍点分量都被局部极小值点分量所"支配",后者被访问的概率呈指数级更高。

0
下载
关闭预览

相关内容

【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员