Chung's Lemma is a classical tool for establishing asymptotic convergence rates of (stochastic) optimization methods under strong convexity-type assumptions and appropriate polynomial diminishing step sizes. In this work, we develop a generalized version of Chung's Lemma, which provides a simple non-asymptotic convergence framework for a more general family of step size rules. We demonstrate broad applicability of the proposed generalized lemma by deriving tight non-asymptotic convergence rates for a large variety of stochastic methods. In particular, we obtain partially new non-asymptotic complexity results for stochastic optimization methods, such as Stochastic Gradient Descent (SGD) and Random Reshuffling (RR), under a general $(θ,μ)$-Polyak-Lojasiewicz (PL) condition and for various step sizes strategies, including polynomial, constant, exponential, and cosine step sizes rules. Notably, as a by-product of our analysis, we observe that exponential step sizes exhibit superior adaptivity to both landscape geometry and gradient noise; specifically, they achieve optimal convergence rates without requiring exact knowledge of the underlying landscape or separate parameter selection strategies for noisy and noise-free regimes. Our results demonstrate that the developed variant of Chung's Lemma offers a versatile, systematic, and streamlined approach to establish non-asymptotic convergence rates under general step size rules.


翻译:Chung引理是经典工具,用于在强凸性类型假设和适当的多项式递减步长条件下,建立(随机)优化方法的渐近收敛速率。本文提出了Chung引理的一个广义版本,为更一般的步长规则族提供了一个简洁的非渐近收敛分析框架。通过为多种随机方法推导出紧致的非渐近收敛速率,我们证明了所提出的广义引理具有广泛的适用性。特别地,在一般的$(θ,μ)$-Polyak-Lojasiewicz(PL)条件下,针对多项式、常数、指数及余弦等多种步长策略,我们获得了随机优化方法(如随机梯度下降(SGD)和随机重排(RR))的部分新的非渐近复杂度结果。值得注意的是,作为分析的副产品,我们观察到指数步长对问题几何结构和梯度噪声均表现出优异的自适应性;具体而言,它们无需精确了解底层问题几何结构,也无需为含噪与无噪情形分别设计参数选择策略,即可达到最优收敛速率。我们的结果表明,所发展的Chung引理变体为在一般步长规则下建立非渐近收敛速率,提供了一种通用、系统且简化的分析方法。

0
下载
关闭预览

相关内容

【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
104+阅读 · 2020年6月28日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
非凸优化与统计学,89页ppt,普林斯顿Yuxin Chen博士
专知会员服务
104+阅读 · 2020年6月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员