Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks - 专知论文

会员服务 ·

0

参数化 · SGD · 损失 · 流形 · 偏差 ·

Escape dynamics and implicit bias of one-pass SGD in overparameterized quadratic networks

翻译：过参数化二次网络单轮SGD的逃逸动力学与隐式偏差

Dario Bocchi,Theotime Regimbeau,Carlo Lucibello,Luca Saglietti,Chiara Cammarota

from arxiv, 30 pages, 6 figures

We analyze the one-pass stochastic gradient descent dynamics of a two-layer neural network with quadratic activations in a teacher--student framework. In the high-dimensional regime, where the input dimension $N$ and the number of samples $M$ diverge at fixed ratio $α= M/N$, and for finite hidden widths $(p,p^*)$ of the student and teacher, respectively, we study the low-dimensional ordinary differential equations that govern the evolution of the student--teacher and student--student overlap matrices. We show that overparameterization ($p>p^*$) only modestly accelerates escape from a plateau of poor generalization by modifying the prefactor of the exponential decay of the loss. We then examine how unconstrained weight norms introduce a continuous rotational symmetry that results in a nontrivial manifold of zero-loss solutions for $p>1$. From this manifold the dynamics consistently selects the closest solution to the random initialization, as enforced by a conserved quantity in the ODEs governing the evolution of the overlaps. Finally, a Hessian analysis of the population-loss landscape confirms that the plateau and the solution manifold correspond to saddles with at least one negative eigenvalue and to marginal minima in the population-loss geometry, respectively.

翻译：我们研究了教师-学生框架下，具有二次激活函数的双层神经网络在单轮随机梯度下降（SGD）中的动力学过程。在高维情形下（即输入维度$N$与样本数$M$以固定比率$α= M/N$发散），且学生与教师网络的隐藏层宽度$(p,p^*)$有限时，我们推导了控制学生-教师和学生-学生重叠矩阵演化的低维常微分方程（ODE）。研究表明，过参数化（$p>p^*$）通过改变损失函数指数衰减的前因子，仅能适度加速从泛化不良的“高原”区域逃逸的过程。进一步，我们发现无约束的权重范数引入连续旋转对称性，导致当$p>1$时存在一个零解的非平凡流形。该流形上，重叠演化ODE所蕴含的守恒量强制动力学过程始终选择最接近随机初始化的解。最终，通过对总体损失景观的海森矩阵分析，我们确认该“高原”区域对应至少具有一个负特征值的鞍点，而解流形则对应总体损失几何中的边际极小值。

0

相关内容

参数化

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于单向链路时延的SCPS-TP双端双向拥塞控制模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Arxiv

0+阅读 · 4月27日

Phase Transitions in the Fluctuations of Functionals of Random Neural Networks

Arxiv

0+阅读 · 4月23日

Phase Transitions in the Fluctuations of Functionals of Random Neural Networks

Arxiv

0+阅读 · 4月21日

SiLIF: Structured State Space Model Dynamics and Parametrization for Spiking Neural Networks

Arxiv

0+阅读 · 4月20日

Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape

Arxiv

0+阅读 · 4月20日

Mini-Batch Covariance, Diffusion Limits, and Oracle Complexity in Stochastic Gradient Descent: A Sampling-Design Perspective

Arxiv

0+阅读 · 4月15日

Towards The Implicit Bias on Multiclass Separable Data Under Norm Constraints

Arxiv

0+阅读 · 3月24日

Gradient Descent with Projection Finds Over-Parameterized Neural Networks for Learning Low-Degree Polynomials with Nearly Minimax Optimal Rate

Arxiv

0+阅读 · 3月22日

Effectiveness of Distributed Gradient Descent with Local Steps for Overparameterized Models

Arxiv

0+阅读 · 3月21日

VIP会员

文章信息

相关主题

最新内容

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

0+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

0+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

5+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

7+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

8+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

12+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 从算法到基础模型：强化学习的统一视角

《异构人类团队的协作决策过程混合建模研究》

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

面向国防作战的最佳自主与蜂群无人机技术

相关资讯

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

GNN在非欧式空间如何表达？【TPAMI2021】双曲深度神经网络研究综述

专知

13+阅读 · 2021年12月29日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

相关论文

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Arxiv

0+阅读 · 4月27日

Phase Transitions in the Fluctuations of Functionals of Random Neural Networks

Arxiv

0+阅读 · 4月23日

Phase Transitions in the Fluctuations of Functionals of Random Neural Networks

Arxiv

0+阅读 · 4月21日

SiLIF: Structured State Space Model Dynamics and Parametrization for Spiking Neural Networks

Arxiv

0+阅读 · 4月20日

Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape

Arxiv

0+阅读 · 4月20日

Mini-Batch Covariance, Diffusion Limits, and Oracle Complexity in Stochastic Gradient Descent: A Sampling-Design Perspective

Arxiv

0+阅读 · 4月15日

Towards The Implicit Bias on Multiclass Separable Data Under Norm Constraints

Arxiv

0+阅读 · 3月24日

Gradient Descent with Projection Finds Over-Parameterized Neural Networks for Learning Low-Degree Polynomials with Nearly Minimax Optimal Rate

Arxiv

0+阅读 · 3月22日

Effectiveness of Distributed Gradient Descent with Local Steps for Overparameterized Models

Arxiv

0+阅读 · 3月21日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于单向链路时延的SCPS-TP双端双向拥塞控制模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

相互依存网络上耦合动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

奇异耦合网络的动力学分析与控制

国家自然科学基金

0+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机双曲型偏微分方程的控制和观测

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员