Gradient Flow Through Diagram Expansions: Learning Regimes and Explicit Solutions - 专知论文

会员服务 ·

0

梯度 · 展开 · 缩放 · 损失 · 参数化 ·

Gradient Flow Through Diagram Expansions: Learning Regimes and Explicit Solutions

翻译：梯度流通过图展开：学习机制与显式解

Dmitry Yarotsky,Eugene Golikov,Yaroslav Gusev

from arxiv, 48 pages, under review for ICML'2026

We develop a general mathematical framework to analyze scaling regimes and derive explicit analytic solutions for gradient flow (GF) in large learning problems. Our key innovation is a formal power series expansion of the loss evolution, with coefficients encoded by diagrams akin to Feynman diagrams. We show that this expansion has a well-defined large-size limit that can be used to reveal different learning phases and, in some cases, to obtain explicit solutions of the nonlinear GF. We focus on learning Canonical Polyadic (CP) decompositions of high-order tensors, and show that this model has several distinct extreme lazy and rich GF regimes such as free evolution, NTK and under- and over-parameterized mean-field. We show that these regimes depend on the parameter scaling, tensor order, and symmetry of the model in a specific and subtle way. Moreover, we propose a general approach to summing the formal loss expansion by reducing it to a PDE; in a wide range of scenarios, it turns out to be 1st order and solvable by the method of characteristics. We observe a very good agreement of our theoretical predictions with experiment.

翻译：我们构建了一个通用的数学框架，用于分析大规模学习问题中梯度流（GF）的缩放机制并推导其显式解析解。我们的核心创新在于将损失演化展开为形式幂级数，其系数由类似于费曼图的图结构编码。我们证明了该展开在大型极限下具有明确定义，可用于揭示不同的学习阶段，并在某些情况下获得非线性梯度流的显式解。我们聚焦于学习高阶张量的规范多线性（CP）分解，并证明该模型具有多种截然不同的极端惰性与丰富梯度流机制，例如自由演化、神经正切核（NTK）以及欠参数化与过参数化平均场。研究表明，这些机制以特定且微妙的方式依赖于参数缩放、张量阶数及模型对称性。此外，我们提出了一种通过将形式损失展开约化为偏微分方程（PDE）来求其和的通用方法；在广泛场景中，该方程可化为一阶方程并通过特征线法求解。我们的理论预测与实验观测结果高度吻合。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【斯坦福博士论文】朝向具表达力和可扩展的深度图表示学习，175页pdf

【斯坦福博士论文】朝向具表达力和可扩展的深度图表示学习，175页pdf

专知会员服务

24+阅读 · 2023年10月20日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

专知会员服务

39+阅读 · 2023年1月31日

图机器学习趋势？123页ppt《几何深度学习》教程，牛津大学教授Michael Bronstein主讲，附视频

图机器学习趋势？123页ppt《几何深度学习》教程，牛津大学教授Michael Bronstein主讲，附视频

专知会员服务

34+阅读 · 2022年8月10日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

专知会员服务

58+阅读 · 2020年5月21日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图表示学习:方法与应用（Representation Learning on Graphs: Methods and Applications）

【图机器学习论文】图表示学习:方法与应用（Representation Learning on Graphs: Methods and Applications）

专知会员服务

147+阅读 · 2019年12月16日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

关于流体力学边界层中的一些问题

国家自然科学基金

0+阅读 · 2014年12月31日

玻尔兹曼方程和流体方程中的渐进极限和边界层分析问题

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Arxiv

0+阅读 · 3月11日

Convergence of the generalization error for deep gradient flow methods for PDEs

Arxiv

0+阅读 · 2月25日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

Learning Gradient Flow: Using Equation Discovery to Accelerate Engineering Optimization

Arxiv

0+阅读 · 2月17日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月16日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks

Arxiv

0+阅读 · 2月13日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【斯坦福博士论文】朝向具表达力和可扩展的深度图表示学习，175页pdf

【斯坦福博士论文】朝向具表达力和可扩展的深度图表示学习，175页pdf

专知会员服务

24+阅读 · 2023年10月20日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

专知会员服务

39+阅读 · 2023年1月31日

图机器学习趋势？123页ppt《几何深度学习》教程，牛津大学教授Michael Bronstein主讲，附视频

图机器学习趋势？123页ppt《几何深度学习》教程，牛津大学教授Michael Bronstein主讲，附视频

专知会员服务

34+阅读 · 2022年8月10日

图表示学习进展到哪了？看这份KDD2021《图表示学习:基础，方法，应用与系统》教程，众大牛讲解，附Slides

专知会员服务

61+阅读 · 2021年8月24日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling in Graph Representation Learning

专知会员服务

58+阅读 · 2020年5月21日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

【图机器学习论文】图表示学习:方法与应用（Representation Learning on Graphs: Methods and Applications）

【图机器学习论文】图表示学习:方法与应用（Representation Learning on Graphs: Methods and Applications）

专知会员服务

147+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

从泰勒展开来看梯度下降算法

从泰勒展开来看梯度下降算法

深度学习每日摘要

13+阅读 · 2019年4月9日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

相关论文

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Arxiv

0+阅读 · 3月11日

Convergence of the generalization error for deep gradient flow methods for PDEs

Arxiv

0+阅读 · 2月25日

High-dimensional learning dynamics of multi-pass Stochastic Gradient Descent in multi-index models

Arxiv

0+阅读 · 2月17日

Learning Gradient Flow: Using Equation Discovery to Accelerate Engineering Optimization

Arxiv

0+阅读 · 2月17日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月16日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks

Arxiv

0+阅读 · 2月13日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

High-Dimensional Limit of Stochastic Gradient Flow via Dynamical Mean-Field Theory

Arxiv

0+阅读 · 2月6日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

梯度光滑法计算流体力学的算法理论研究和程序开发

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

关于流体力学边界层中的一些问题

国家自然科学基金

0+阅读 · 2014年12月31日

玻尔兹曼方程和流体方程中的渐进极限和边界层分析问题

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

弹性应变梯度问题的有限元方法

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员