A Polyak-Ruppert Central Limit Theorem for SA-Adam with Momentum and Non-Convergent Adaptive Preconditioning - 专知论文

会员服务 ·

0

动量 · 预条件 · Adam · 自适应 · 衰减 ·

A Polyak-Ruppert Central Limit Theorem for SA-Adam with Momentum and Non-Convergent Adaptive Preconditioning

翻译：Polyak-Ruppert中心极限定理用于带动量与非收敛自适应预条件的SA-Adam

Sunyoung An,Xiaoming Huo

from arxiv, 44 pages, 3 figures

Adaptive optimizers combining preconditioning, momentum, and weight decay (Adam and AdamW) are, under Polyak-Ruppert averaging, candidate engines for one-pass inference. Does the averaged iterate keep the classical Polyak-Ruppert central limit theorem (CLT), with sandwich covariance $H^{-1}SH^{-1}$ (Hessian $H$, gradient covariance $S$), under momentum and non-convergent preconditioning? The preconditioner-only analysis does not carry over: with momentum the canonical decomposition collapses to a tautology. Treating the augmented state (iterate, momentum buffer) as a time-varying linear stochastic approximation (SA), we prove (under local stabilization) positive drift stability, a non-autonomous Polyak-Ruppert CLT, and a projection identity. The upshot: the iterate-marginal covariance is exactly the plain stochastic gradient descent (SGD) sandwich $H^{-1}SH^{-1}$, so the adaptivity is asymptotically invisible. This holds for SA-Adam (sub-linearly vanishing momentum gain, $γ\in(α,1)$; the sub-linear regime is essential), not constant-$β$ deployed Adam. Coupled $L_2$ weight decay yields the ridge-penalized sandwich, extending one-pass inference to regularized problems.

翻译：结合预条件、动量和权重衰减的自适应优化器（Adam与AdamW）在Polyak-Ruppert平均下，成为单次推断的候选引擎。在动量与非收敛预条件下，平均迭代是否能保持经典Polyak-Ruppert中心极限定理（CLT），即夹层协方差$H^{-1}SH^{-1}$（Hessian矩阵$H$，梯度协方差$S$）？仅针对预条件的分析无法直接推广：引入动量后，规范分解退化为同义反复。将增广状态（迭代量、动量缓存）视为时变线性随机逼近（SA），我们证明（在局部稳定化下）正漂移稳定性、非自治Polyak-Ruppert CLT及投影恒等式。结论：迭代边际协方差恰好等于普通随机梯度下降（SGD）的夹层形式$H^{-1}SH^{-1}$，因此自适应性的影响在渐近意义上不可见。该结论适用于SA-Adam（动量增益呈次线性衰减，$γ\in(α,1)$；次线性区间至关重要），而非固定$β$的Adam。耦合$L_2$权重衰减产生岭惩罚夹层，将单次推断扩展至正则化问题。

0

相关内容

动量方法 (Polyak, 1964) 旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

专知会员服务

27+阅读 · 2025年9月18日

【新书】《中心极限定理的历史：从经典到现代概率论》，415页pdf

【新书】《中心极限定理的历史：从经典到现代概率论》，415页pdf

专知会员服务

48+阅读 · 2024年8月28日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

【经典书】中心极限定理的历史：从古典到现代概率论

【经典书】中心极限定理的历史：从古典到现代概率论

专知会员服务

53+阅读 · 2023年10月20日

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络，183页pdf

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络，183页pdf

专知会员服务

33+阅读 · 2023年9月25日

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

专知会员服务

45+阅读 · 2023年1月27日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

深度学习优化算法入门：二、动量、RMSProp、Adam

深度学习优化算法入门：二、动量、RMSProp、Adam

论智

10+阅读 · 2018年10月2日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

Choquet期望下极限定理及其收敛速度的刻画

国家自然科学基金

0+阅读 · 2015年12月31日

非线性期望理论下的极限定理及其金融风险度量中应用的研究

国家自然科学基金

0+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

复合材料里电磁问题的有限元方法

国家自然科学基金

1+阅读 · 2015年12月31日

流体力学方程组的适定性问题与极限问题

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于三角小波有限元的桥梁稳定极限承载力自适应计算理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

Convergence Rate Analysis of the AdamW-style Shampoo: Unifying One-Sided and Two-Sided Preconditioning

Arxiv

0+阅读 · 6月14日

Limit theorems of Azadkia-Chatterjee's conditional graph correlation

Arxiv

0+阅读 · 6月13日

Central Limit Theorems for Stochastic Gradient Descent Quantile Estimators

Arxiv

0+阅读 · 6月11日

Quantifying Uncertainty In Wide Two-Layer Neural Networks: On The Law Of The Limiting Fluctuation Process

Arxiv

0+阅读 · 6月4日

Optimal Initialization in Depth: Lyapunov Initialization and Limit Theorems for Deep Leaky ReLU Networks

Arxiv

0+阅读 · 6月2日

Approximate FKG inequalities for phase-bound spin systems, with applications to central limit theorems for exponential random graphs

Arxiv

0+阅读 · 5月20日

A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

Arxiv

0+阅读 · 5月19日

EvoQRE: Modeling Bounded Rationality in Safety-Critical Traffic Simulation via Evolutionary Quantal Response Equilibrium

Arxiv

0+阅读 · 5月18日

The Effect of Mini-Batch Noise on the Implicit Bias of Adam

Arxiv

0+阅读 · 5月7日

Uncertainty Quantification of Spline Predictors on Compact Riemannian Manifolds

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

专知会员服务

27+阅读 · 2025年9月18日

【新书】《中心极限定理的历史：从经典到现代概率论》，415页pdf

【新书】《中心极限定理的历史：从经典到现代概率论》，415页pdf

专知会员服务

48+阅读 · 2024年8月28日

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

【MIT博士论文】非线性优化在机器学习应用中的平滑性与自适应性

专知会员服务

27+阅读 · 2024年8月27日

【经典书】中心极限定理的历史：从古典到现代概率论

【经典书】中心极限定理的历史：从古典到现代概率论

专知会员服务

53+阅读 · 2023年10月20日

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络，183页pdf

【EPFL博士论文】统计学习问题的基本限制:块模型和神经网络，183页pdf

专知会员服务

33+阅读 · 2023年9月25日

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

【匹兹堡大学博士论文】数据限制下的因果推理，147页pdf

专知会员服务

45+阅读 · 2023年1月27日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

【AdaMod】一个新的深度学习优化与记忆（Meet AdaMod: a new deep learning optimizer with memory）

专知会员服务

15+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

深度学习优化算法入门：二、动量、RMSProp、Adam

深度学习优化算法入门：二、动量、RMSProp、Adam

论智

10+阅读 · 2018年10月2日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Convergence Rate Analysis of the AdamW-style Shampoo: Unifying One-Sided and Two-Sided Preconditioning

Arxiv

0+阅读 · 6月14日

Limit theorems of Azadkia-Chatterjee's conditional graph correlation

Arxiv

0+阅读 · 6月13日

Central Limit Theorems for Stochastic Gradient Descent Quantile Estimators

Arxiv

0+阅读 · 6月11日

Quantifying Uncertainty In Wide Two-Layer Neural Networks: On The Law Of The Limiting Fluctuation Process

Arxiv

0+阅读 · 6月4日

Optimal Initialization in Depth: Lyapunov Initialization and Limit Theorems for Deep Leaky ReLU Networks

Arxiv

0+阅读 · 6月2日

Approximate FKG inequalities for phase-bound spin systems, with applications to central limit theorems for exponential random graphs

Arxiv

0+阅读 · 5月20日

A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

Arxiv

0+阅读 · 5月19日

EvoQRE: Modeling Bounded Rationality in Safety-Critical Traffic Simulation via Evolutionary Quantal Response Equilibrium

Arxiv

0+阅读 · 5月18日

The Effect of Mini-Batch Noise on the Implicit Bias of Adam

Arxiv

0+阅读 · 5月7日

Uncertainty Quantification of Spline Predictors on Compact Riemannian Manifolds

Arxiv

0+阅读 · 3月25日

相关基金

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

Choquet期望下极限定理及其收敛速度的刻画

国家自然科学基金

0+阅读 · 2015年12月31日

非线性期望理论下的极限定理及其金融风险度量中应用的研究

国家自然科学基金

0+阅读 · 2015年12月31日

近临界随机环境中随机游动的若干极限性质

国家自然科学基金

0+阅读 · 2015年12月31日

复合材料里电磁问题的有限元方法

国家自然科学基金

1+阅读 · 2015年12月31日

流体力学方程组的适定性问题与极限问题

国家自然科学基金

0+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

基于三角小波有限元的桥梁稳定极限承载力自适应计算理论研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员