We study trade-offs between convergence rate and robustness to gradient errors in the context of first-order methods. Our focus is on generalized momentum methods (GMMs)--a broad class that includes Nesterov's accelerated gradient, heavy-ball, and gradient descent methods--for minimizing smooth strongly convex objectives. We allow stochastic gradient errors that may be adversarial and biased, and quantify robustness of these methods to gradient errors via the risk-sensitive index (RSI) from robust control theory. For quadratic objectives with i.i.d. Gaussian noise, we give closed form expressions for RSI in terms of solutions to 2x2 matrix Riccati equations, revealing a Pareto frontier between RSI and convergence rate over the choice of step-size and momentum parameters. We then prove a large-deviation principle for time-averaged suboptimality in the large iteration limit and show that the rate function is, up to a scaling, the convex conjugate of the RSI function. We further show that the rate function and RSI are linked to the $H_\infty$-norm--a measure of robustness to the worst-case deterministic gradient errors--so that stronger worst-case robustness (smaller $H_\infty$-norm) leads to sharper decay of the tail probabilities for the average suboptimality. Beyond quadratics, under potentially biased sub-Gaussian gradient errors, we derive non-asymptotic bounds on a finite-time analogue of the RSI, yielding finite-time high-probability guarantees and non-asymptotic large-deviation bounds for the averaged iterates. In the case of smooth strongly convex functions, we also observe an analogous trade-off between RSI and convergence-rate bounds. To our knowledge, these are the first non-asymptotic guarantees for GMMs with biased gradients and the first risk-sensitive analysis of GMMs. Finally, we provide numerical experiments on a robust regression problem to illustrate our results.


翻译:本文研究一阶优化方法中收敛速率与梯度误差鲁棒性之间的权衡关系。我们聚焦于广义动量方法(GMMs)——一个包含Nesterov加速梯度法、重球法和梯度下降法的广泛类别——用于最小化光滑强凸目标函数。我们允许梯度误差具有随机性、对抗性和偏置性,并通过鲁棒控制理论中的风险敏感指数(RSI)量化这些方法对梯度误差的鲁棒性。对于具有独立同分布高斯噪声的二次目标函数,我们通过2×2矩阵Riccati方程的解给出了RSI的闭式表达式,揭示了在步长和动量参数选择下RSI与收敛速率之间的帕累托前沿。随后我们证明了在大量迭代极限下时间平均次优性的大偏差原理,并证明速率函数(除缩放因子外)正是RSI函数的凸共轭。我们进一步表明速率函数和RSI与$H_\infty$范数——衡量对最坏确定性梯度误差鲁棒性的指标——相关联,因此更强的最坏情况鲁棒性(更小的$H_\infty$范数)会导致平均次优性尾部概率的更急剧衰减。对于非二次函数,在可能具有偏置的亚高斯梯度误差下,我们推导了RSI有限时间模拟量的非渐近界,从而为平均迭代提供了有限时间高概率保证和非渐近大偏差界。在光滑强凸函数情形下,我们也观察到RSI与收敛速率界之间的类似权衡关系。据我们所知,这是针对带偏置梯度的GMMs的首个非渐近保证,也是GMMs的首次风险敏感性分析。最后,我们通过鲁棒回归问题的数值实验验证了理论结果。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
通过条件梯度进行结构化机器学习训练,50页ppt与视频
专知会员服务
13+阅读 · 2021年2月25日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月26日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员