The problem of stopping stochastic gradient descent (SGD) in an online manner, based solely on the observed trajectory, is a challenging theoretical problem with significant consequences for applications. While SGD is routinely monitored as it runs, the classical theory of SGD provides guarantees only at pre-specified iteration horizons and offers no valid way to decide, based on the observed trajectory, when further computation is justified. We address this longstanding gap by developing anytime-valid confidence sequences for stochastic gradient methods, which remain valid under continuous monitoring and directly induce statistically valid, trajectory-dependent stopping rules: stop as soon as the current upper confidence bound on an appropriate performance measure falls below a user-specified tolerance. The confidence sequences are constructed using nonnegative supermartingales, are time-uniform, and depend only on observable quantities along the SGD trajectory, without requiring prior knowledge of the optimization horizon. In convex optimization, this yields anytime-valid certificates for weighted suboptimality of projected SGD under general stepsize schedules, without assuming smoothness or strong convexity. In nonconvex optimization, it yields time-uniform certificates for weighted first-order stationarity under smoothness assumptions. We further characterize the stopping-time complexity of the resulting stopping rules under standard stepsize schedules. To the best of our knowledge, this is the first framework that provides statistically valid, time-uniform stopping rules for SGD across both convex and nonconvex settings based solely on its observed trajectory.


翻译:随机梯度下降(SGD)的在线停止问题——仅基于观测到的轨迹动态决定何时停止——是一个具有挑战性的理论问题,对实际应用具有重要影响。尽管SGD在运行过程中通常会被持续监控,但经典的SGD理论仅能对预先指定的迭代次数提供性能保证,而无法基于观测到的轨迹提供有效的方法来判断何时继续计算是合理的。我们通过为随机梯度方法构建任意时间有效的置信序列来填补这一长期存在的空白。这些置信序列在连续监控下始终保持有效性,并可直接导出具有统计有效性、依赖于轨迹的停止准则:一旦关于适当性能度量的当前置信上界低于用户指定的容差,即停止迭代。置信序列的构造基于非负上鞅,具有时间一致性,且仅依赖于SGD轨迹上的可观测量,无需预先知道优化过程的迭代总次数。在凸优化中,该方法可为一般步长调度下的投影SGD提供关于加权次优性的任意时间有效证书,且无需假设光滑性或强凸性。在非凸优化中,该方法可在光滑性假设下为加权一阶平稳性提供时间一致性证书。我们进一步分析了在标准步长调度下,所导出停止准则对应的停止时间复杂性。据我们所知,这是首个仅基于SGD观测轨迹、在凸与非凸两种设置下均能提供具有统计有效性且时间一致的停止准则的理论框架。

0
下载
关闭预览

相关内容

【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
【Google】梯度下降,48页ppt
专知会员服务
81+阅读 · 2020年12月5日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【简明书册】(随机)梯度方法的收敛定理手册,68页pdf
专知会员服务
39+阅读 · 2023年1月31日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
54+阅读 · 2021年11月22日
【Google】梯度下降,48页ppt
专知会员服务
81+阅读 · 2020年12月5日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
41+阅读 · 2020年3月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员