High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory - 专知论文

会员服务 ·

0

高维 · 梯度 · 分析 · SGD · 平均场 ·

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

翻译：高维极限下随机梯度流的动力学平均场理论分析

Sota Nishiyama,Masaaki Imaizumi

Modern machine learning models are typically trained via multi-pass stochastic gradient descent (SGD) with small batch sizes, and understanding their dynamics in high dimensions is of great interest. However, an analytical framework for describing the high-dimensional asymptotic behavior of multi-pass SGD with small batch sizes for nonlinear models is currently missing. In this study, we address this gap by analyzing the high-dimensional dynamics of a stochastic differential equation called a \emph{stochastic gradient flow} (SGF), which approximates multi-pass SGD in this regime. In the limit where the number of data samples $n$ and the dimension $d$ grow proportionally, we derive a closed system of low-dimensional and continuous-time equations and prove that it characterizes the asymptotic distribution of the SGF parameters. Our theory is based on the dynamical mean-field theory (DMFT) and is applicable to a wide range of models encompassing generalized linear models and two-layer neural networks. We further show that the resulting DMFT equations recover several existing high-dimensional descriptions of SGD dynamics as special cases, thereby providing a unifying perspective on prior frameworks such as online SGD and high-dimensional linear regression. Our proof builds on the existing DMFT technique for gradient flow and extends it to handle the stochasticity in SGF using tools from stochastic calculus.

翻译：现代机器学习模型通常通过小批量多轮随机梯度下降（SGD）进行训练，理解其在高维空间中的动力学行为具有重要意义。然而，目前尚缺乏一个用于描述非线性模型在小批量多轮SGD下高维渐近行为的分析框架。本研究通过分析一种称为**随机梯度流**（SGF）的随机微分方程的动力学来填补这一空白，该方程在此机制下近似多轮SGD。在数据样本数$n$与维度$d$成比例增长的极限下，我们推导出一个封闭的低维连续时间方程组，并证明其刻画了SGF参数的渐近分布。我们的理论基于动力学平均场理论（DMFT），适用于涵盖广义线性模型和两层神经网络的广泛模型类别。我们进一步证明，所得的DMFT方程将多个现有SGD动力学高维描述作为特例进行统一，从而为在线SGD和高维线性回归等先前框架提供了统一视角。我们的证明建立在现有梯度流DMFT技术基础上，并利用随机分析工具将其扩展至处理SGF中的随机性。

0

相关内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【硬核书】机器学习随机矩阵理论，472页pdf

专知会员服务

148+阅读 · 2021年8月12日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

124+阅读 · 2020年5月30日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型有限体积元方法及其在随机地球流体力学中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Arxiv

0+阅读 · 3月7日

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

Statistical Inference with Stochastic Gradient Methods under $φ$-mixing Data

Arxiv

0+阅读 · 3月3日

Interactive Learning of Single-Index Models via Stochastic Gradient Descent

Arxiv

0+阅读 · 2月19日

High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes

Arxiv

0+阅读 · 2月18日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

On the Stability of Nonlinear Dynamics in GD and SGD: Beyond Quadratic Potentials

Arxiv

0+阅读 · 2月16日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【硬核书】机器学习随机矩阵理论，472页pdf

专知会员服务

148+阅读 · 2021年8月12日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

124+阅读 · 2020年5月30日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

【伯克利马毅老师等重磅新书】低维模型进行高维数据分析:原理、计算和应用，710页pdf

专知

45+阅读 · 2020年12月9日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Arxiv

0+阅读 · 3月7日

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

Statistical Inference with Stochastic Gradient Methods under $φ$-mixing Data

Arxiv

0+阅读 · 3月3日

Interactive Learning of Single-Index Models via Stochastic Gradient Descent

Arxiv

0+阅读 · 2月19日

High-dimensional limit theorems for SGD: Momentum and Adaptive Step-sizes

Arxiv

0+阅读 · 2月18日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

On the Stability of Nonlinear Dynamics in GD and SGD: Beyond Quadratic Potentials

Arxiv

0+阅读 · 2月16日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

随机非均质多孔介质中水流与溶质运移问题的随机降维多尺度数值方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

无穷维随机微分系统的适定性与渐近动力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

新型有限体积元方法及其在随机地球流体力学中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员