Optimization under heavy-tailed noise has become popular recently, since it better fits many modern machine learning tasks, as captured by empirical observations. Concretely, instead of a finite second moment on gradient noise, a bounded ${\frak p}$-th moment where ${\frak p}\in(1,2]$ has been recognized to be more realistic (say being upper bounded by $σ_{\frak l}^{\frak p}$ for some $σ_{\frak l}\ge0$). A simple yet effective operation, gradient clipping, is known to handle this new challenge successfully. Specifically, Clipped Stochastic Gradient Descent (Clipped SGD) guarantees a high-probability rate ${\cal O}(σ_{\frak l}\ln(1/δ)T^{1/{\frak p}-1})$ (resp. ${\cal O}(σ_{\frak l}^2\ln^2(1/δ)T^{2/{\frak p}-2})$) for nonsmooth convex (resp. strongly convex) problems, where $δ\in(0,1]$ is the failure probability and $T\in\mathbb{N}$ is the time horizon. In this work, we provide a refined analysis for Clipped SGD and offer two faster rates, ${\cal O}(σ_{\frak l}d_{\rm eff}^{-1/2{\frak p}}\ln^{1-1/{\frak p}}(1/δ)T^{1/{\frak p}-1})$ and ${\cal O}(σ_{\frak l}^2d_{\rm eff}^{-1/{\frak p}}\ln^{2-2/{\frak p}}(1/δ)T^{2/{\frak p}-2})$, than the aforementioned best results, where $d_{\rm eff}\ge1$ is a quantity we call the $\textit{generalized effective dimension}$. Our analysis improves upon the existing approach on two sides: better utilization of Freedman's inequality and finer bounds for clipping error under heavy-tailed noise. In addition, we extend the refined analysis to convergence in expectation and obtain new rates that break the known lower bounds. Lastly, to complement the study, we establish new lower bounds for both high-probability and in-expectation convergence. Notably, the in-expectation lower bounds match our new upper bounds, indicating the optimality of our refined analysis for convergence in expectation.


翻译:重尾噪声下的优化问题近来备受关注,因其更贴合众多现代机器学习任务的经验观测特征。具体而言,梯度噪声不再具有有限二阶矩,而是满足有界${\frak p}$阶矩(${\frak p}\in(1,2]$),即存在$σ_{\frak l}\ge0$使得${\rm E}\|\nabla \cdot\|^{\frak p}\le σ_{\frak l}^{\frak p}$。梯度裁剪这一简洁高效的操作已被证明能成功应对这一新挑战。具体地,裁剪随机梯度下降法(Clipped SGD)在非光滑凸(强凸)问题上可实现高概率收敛速率${\cal O}(σ_{\frak l}\ln(1/δ)T^{1/{\frak p}-1})$(对应${\cal O}(σ_{\frak l}^2\ln^2(1/δ)T^{2/{\frak p}-2})$),其中$δ\in(0,1]$为失败概率,$T\in\mathbb{N}$为时间步长。本文对Clipped SGD进行精细分析,提出两个更优收敛速率:${\cal O}(σ_{\frak l}d_{\rm eff}^{-1/2{\frak p}}\ln^{1-1/{\frak p}}(1/δ)T^{1/{\frak p}-1})$和${\cal O}(σ_{\frak l}^2d_{\rm eff}^{-1/{\frak p}}\ln^{2-2/{\frak p}}(1/δ)T^{2/{\frak p}-2})$,优于现有最优结果,其中$d_{\rm eff}\ge1$为本文定义的$\textit{广义有效维度}$。我们的分析从两方面改进了现有方法:更高效利用Freedman不等式,以及更精细刻画重尾噪声下的裁剪误差。此外,我们将精细分析拓展至期望收敛情形,获得突破已知下界的收敛速率。最后,作为补充研究,我们建立了高概率收敛与期望收敛的新下界。值得注意的是,期望收敛下界与本文新上界匹配,表明期望收敛精细分析的最优性。

0
下载
关闭预览

相关内容

专知会员服务
75+阅读 · 2020年12月7日
【NeurIPS2020-北大】非凸优化裁剪算法的改进分析
专知会员服务
29+阅读 · 2020年10月11日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
专知会员服务
75+阅读 · 2020年12月7日
【NeurIPS2020-北大】非凸优化裁剪算法的改进分析
专知会员服务
29+阅读 · 2020年10月11日
相关资讯
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
博客 | 机器学习中的数学基础(凸优化)
AI研习社
14+阅读 · 2018年12月16日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员