The study of tail behaviour of SGD-induced processes has been attracting a lot of interest, due to offering strong guarantees with respect to individual runs of an algorithm. While many works provide high-probability guarantees, quantifying the error rate for a fixed probability threshold, there is a lack of work directly studying the probability of failure, i.e., quantifying the tail decay rate for a fixed error threshold. Moreover, existing results are of finite-time nature, limiting their ability to capture the true long-term tail decay which is more informative for modern learning models, typically trained for millions of iterations. Our work closes these gaps, by studying the long-term tail decay of SGD-based methods through the lens of large deviations theory, establishing several strong results in the process. First, we provide an upper bound on the tails of the gradient norm-squared of the best iterate produced by (vanilla) SGD, for non-convex costs and bounded noise, with long-term decay at rate $e^{-t/\log(t)}$. Next, we relax the noise assumption by considering clipped SGD (c-SGD) under heavy-tailed noise with bounded moment of order $p \in (1,2]$, showing an upper bound with long-term decay at rate $e^{-t^{β_p}/\log(t)}$, where $β_p = \frac{4(p-1)}{3p-2}$ for $p \in (1,2)$ and $e^{-t/\log^2(t)}$ for $p = 2$. Finally, we provide lower bounds on the tail decay, at rate $e^{-t}$, showing that our rates for both SGD and c-SGD are tight, up to poly-logarithmic factors. Notably, our results demonstrate an order of magnitude faster long-term tail decay compared to existing work based on finite-time bounds, which show rates $e^{-\sqrt{t}}$ and $e^{-t^{β_p/2}}$, $p \in (1,2]$, for SGD and c-SGD, respectively. As such, we uncover regimes where the tails decay much faster than previously known, providing stronger long-term guarantees for individual runs.


翻译:对随机梯度下降(SGD)所诱导过程的尾部行为研究,因其能为算法的单次运行提供强保证而备受关注。现有工作大多提供高概率保证,即量化固定概率阈值下的误差率,但直接研究失败概率(即量化固定误差阈值下的尾部衰减率)的工作尚显不足。此外,现有结果均属有限时间性质,难以捕捉对通常训练数百万次迭代的现代学习模型更具信息量的真实长期尾部衰减。本研究通过大偏差理论的视角,填补了这些空白,研究了基于SGD方法的长期尾部衰减,并在此过程中建立了若干强结果。首先,对于非凸代价函数和有界噪声,我们给出了(原始)SGD产生的最佳迭代点梯度范数平方的尾部上界,其长期衰减率为 $e^{-t/\log(t)}$。接着,我们放宽噪声假设,考虑在具有 $p \in (1,2]$ 阶有界矩的重尾噪声下的截断SGD(c-SGD),证明了其上界具有长期衰减率 $e^{-t^{β_p}/\log(t)}$,其中 $β_p = \frac{4(p-1)}{3p-2}$ 对应 $p \in (1,2)$,而 $p = 2$ 时为 $e^{-t/\log^2(t)}$。最后,我们给出了尾部衰减的下界,衰减率为 $e^{-t}$,表明我们针对SGD和c-SGD的衰减率在多项式对数因子范围内是紧致的。值得注意的是,我们的结果表明,与基于有限时间界(其分别对SGD和c-SGD显示 $e^{-\sqrt{t}}$ 和 $e^{-t^{β_p/2}}$,$p \in (1,2]$ 的衰减率)的现有工作相比,长期尾部衰减快了一个数量级。因此,我们揭示了尾部衰减远快于以往认知的机制,为单次运行提供了更强的长期保证。

0
下载
关闭预览

相关内容

改进型深度确定性策略梯度的无人机路径规划
专知会员服务
14+阅读 · 2025年5月1日
深度长尾学习研究综述
专知会员服务
27+阅读 · 2025年2月12日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
专知会员服务
75+阅读 · 2020年12月7日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员