From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions - 专知论文

会员服务 ·

0

损失 · 通用动力公司 · 深度网络 · 损失函数 · 梯度 ·

From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions

翻译：从次线性到线性：通过局部Polyak-Lojasiewicz区域实现深度网络的快速收敛

Agnideep Aich,Ashit Baran Aich,Bruce Wade

Gradient descent (GD) on deep neural network loss landscapes is non-convex, yet often converges far faster in practice than classical guarantees suggest. Prior work shows that within locally quasi-convex regions (LQCRs), GD converges to stationary points at sublinear rates, leaving the commonly observed near-exponential training dynamics unexplained. We show that, under a mild local Neural Tangent Kernel (NTK) stability assumption, the loss satisfies a PL-type error bound within these regions, yielding a Locally Polyak-Lojasiewicz Region (LPLR) in which the squared gradient norm controls the suboptimality gap. For properly initialized finite-width networks, we show that under local NTK stability this PL-type mechanism holds around initialization and establish linear convergence of GD as long as the iterates remain within the resulting LPLR. Empirically, we observe PL-like scaling and linear-rate loss decay in controlled full-batch training and in a ResNet-style CNN trained with mini-batch SGD on a CIFAR-10 subset, indicating that LPLR signatures can persist under modern architectures and stochastic optimization. Overall, the results connect local geometric structure, local NTK stability, and fast optimization rates in a finite-width setting.

翻译：深度神经网络损失函数上的梯度下降（GD）是非凸优化问题，但在实践中其收敛速度往往远快于经典理论保证。先前研究表明，在局部拟凸区域（LQCRs）内，GD以次线性速率收敛至驻点，这无法解释实际中常见的近指数级训练动态。我们证明，在温和的局部神经正切核（NTK）稳定性假设下，损失函数在这些区域内满足PL型误差界，从而形成局部Polyak-Lojasiewicz区域（LPLR），其中梯度平方范数控制次优间隙。对于适当初始化的有限宽度网络，我们证明在局部NTK稳定性条件下，这种PL型机制在初始化点附近成立，并确立只要迭代保持在所得LPLR内，GD即具有线性收敛性。实证中，我们在受控全批次训练以及使用小批次SGD在CIFAR-10子集上训练的ResNet风格CNN中，观察到类PL标度律和线性速率的损失衰减，表明LPLR特征在现代架构和随机优化下仍可保持。总体而言，本研究在有限宽度设定下建立了局部几何结构、局部NTK稳定性与快速优化速率之间的理论联系。

0

相关内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

21+阅读 · 2025年7月17日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

专知会员服务

116+阅读 · 2019年12月30日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

入门学习 | 什么是图卷积网络？行为识别领域新星

入门学习 | 什么是图卷积网络？行为识别领域新星

AI100

18+阅读 · 2019年6月7日

吴恩达团队：神经网络如何正确初始化？

吴恩达团队：神经网络如何正确初始化？

AI100

11+阅读 · 2019年5月15日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

层次粒化的不确定多态网络重叠社区发现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

实例结构限制下信息传播算法的收敛性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Visualizing the loss landscapes of physics-informed neural networks

Arxiv

0+阅读 · 2月5日

Optimization, Generalization and Differential Privacy Bounds for Gradient Descent on Kolmogorov-Arnold Networks

Arxiv

0+阅读 · 2月4日

Towards Compact and Robust DNNs via Compression-aware Sharpness Minimization

Arxiv

0+阅读 · 1月28日

Multigrade Neural Network Approximation

Arxiv

0+阅读 · 1月23日

Optimization Insights into Deep Diagonal Linear Networks

Arxiv

0+阅读 · 1月19日

Enhancing LUT-based Deep Neural Networks Inference through Architecture and Connectivity Optimization

Arxiv

0+阅读 · 1月14日

Convergence of gradient flow for learning convolutional neural networks

Arxiv

0+阅读 · 1月13日

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

Arxiv

0+阅读 · 1月12日

Geometry-induced Regularization in Deep ReLU Neural Networks

Arxiv

0+阅读 · 1月5日

Deep Delta Learning

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

通用动力公司

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

21+阅读 · 2025年7月17日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

借助几何先验知识促进深度神经网络：综述 | Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey

专知会员服务

29+阅读 · 2020年7月10日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

【论文】双曲图卷积神经网络（Hyperbolic Graph Convolutional Neural Networks），斯坦福大学| Ines Chami，斯坦福大学| Rex Ying

专知会员服务

116+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

入门学习 | 什么是图卷积网络？行为识别领域新星

入门学习 | 什么是图卷积网络？行为识别领域新星

AI100

18+阅读 · 2019年6月7日

吴恩达团队：神经网络如何正确初始化？

吴恩达团队：神经网络如何正确初始化？

AI100

11+阅读 · 2019年5月15日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关论文

Visualizing the loss landscapes of physics-informed neural networks

Arxiv

0+阅读 · 2月5日

Optimization, Generalization and Differential Privacy Bounds for Gradient Descent on Kolmogorov-Arnold Networks

Arxiv

0+阅读 · 2月4日

Towards Compact and Robust DNNs via Compression-aware Sharpness Minimization

Arxiv

0+阅读 · 1月28日

Multigrade Neural Network Approximation

Arxiv

0+阅读 · 1月23日

Optimization Insights into Deep Diagonal Linear Networks

Arxiv

0+阅读 · 1月19日

Enhancing LUT-based Deep Neural Networks Inference through Architecture and Connectivity Optimization

Arxiv

0+阅读 · 1月14日

Convergence of gradient flow for learning convolutional neural networks

Arxiv

0+阅读 · 1月13日

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

Arxiv

0+阅读 · 1月12日

Geometry-induced Regularization in Deep ReLU Neural Networks

Arxiv

0+阅读 · 1月5日

Deep Delta Learning

Arxiv

0+阅读 · 1月1日

相关基金

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

层次粒化的不确定多态网络重叠社区发现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

实例结构限制下信息传播算法的收敛性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员