We study the learning dynamics of a multi-pass, mini-batch Stochastic Gradient Descent (SGD) procedure for empirical risk minimization in high-dimensional multi-index models with isotropic random data. In an asymptotic regime where the sample size $n$ and data dimension $d$ increase proportionally, for any sub-linear batch size $κ\asymp n^α$ where $α\in [0,1)$, and for a commensurate ``critical'' scaling of the learning rate, we provide an asymptotically exact characterization of the coordinate-wise dynamics of SGD. This characterization takes the form of a system of dynamical mean-field equations, driven by a scalar Poisson jump process that represents the asymptotic limit of SGD sampling noise. We develop an analogous characterization of the Stochastic Modified Equation (SME) which provides a Gaussian diffusion approximation to SGD. Our analyses imply that the limiting dynamics for SGD are the same for any batch size scaling $α\in [0,1)$, and that under a commensurate scaling of the learning rate, dynamics of SGD, SME, and gradient flow are mutually distinct, with those of SGD and SME coinciding in the special case of a linear model. We recover a known dynamical mean-field characterization of gradient flow in a limit of small learning rate, and of one-pass/online SGD in a limit of increasing sample size $n/d \to \infty$.


翻译:我们研究了高维各向同性随机数据多指标模型中,用于经验风险最小化的多轮小批量随机梯度下降(SGD)过程的学习动力学。在样本量 $n$ 与数据维度 $d$ 成比例增长的渐近机制下,对于任意满足 $κ\asymp n^α$(其中 $α\in [0,1)$)的亚线性批量大小,以及相应“临界”学习率的缩放,我们给出了SGD坐标方向动力学的渐近精确刻画。该刻画以一组动态平均场方程的形式呈现,其驱动项为一个标量泊松跳跃过程,代表了SGD采样噪声的渐近极限。我们建立了随机修正方程(SME)的类似刻画,该方程为SGD提供了高斯扩散近似。我们的分析表明,对于任意批量大小缩放 $α\in [0,1)$,SGD的极限动力学是相同的;并且在相应的学习率缩放下,SGD、SME以及梯度流的动力学彼此不同,仅在特殊线性模型情形下,SGD与SME的动力学才会重合。我们在学习率趋于零的极限下,恢复了梯度流已知的动态平均场刻画;在样本量 $n/d \to \infty$ 的极限下,恢复了一轮/在线SGD的动态平均场刻画。

0
下载
关闭预览

相关内容

【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
专知会员服务
235+阅读 · 2020年5月6日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
专知会员服务
235+阅读 · 2020年5月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员