Gradient optimization algorithms using epochs, that is those based on stochastic gradient descent without replacement (SGDo), are predominantly used to train machine learning models in practice. However, the mathematical theory of SGDo and related algorithms remain underexplored compared to their "with replacement" and "one-pass" counterparts. In this article, we propose a stochastic, continuous-time approximation to SGDo with additive noise based on a Young differential equation driven by a stochastic process we call an "epoched Brownian motion". We show its usefulness by proving the almost sure convergence of the continuous-time approximation for strongly convex objectives and learning rate schedules of the form $u_t = \frac{1}{(1+t)^β}, β\in (0,1)$. Moreover, we compute an upper bound on the asymptotic rate of almost sure convergence, which is as good or better than previous results for SGDo.


翻译:基于轮次(epoch)的梯度优化算法,即采用无放回随机梯度下降(SGDo)的方法,在实践中被广泛用于训练机器学习模型。然而,相较于其“有放回”和“单次遍历”的对应算法,SGDo及相关算法的数学理论仍相对缺乏深入探索。本文提出了一种基于“轮次化布朗运动”随机过程驱动的Young微分方程的随机连续时间逼近方法,用于近似SGDo并引入加性噪声。通过证明在强凸目标函数及学习率调度为$u_t = \\frac{1}{(1+t)^\\beta}, \\beta \\in (0,1)$形式下,该连续时间逼近几乎必然收敛,我们展示了其有效性。此外,我们计算了几乎必然收敛渐近速率的上界,该结果优于或等同于先前针对SGDo的研究成果。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 2025年6月15日
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
专知会员服务
12+阅读 · 2021年7月13日
专知会员服务
23+阅读 · 2021年6月22日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
10+阅读 · 2021年2月26日
VIP会员
相关VIP内容
【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 2025年6月15日
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
24+阅读 · 2023年5月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
专知会员服务
12+阅读 · 2021年7月13日
专知会员服务
23+阅读 · 2021年6月22日
【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习
专知会员服务
37+阅读 · 2021年3月28日
相关论文
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员