SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures - 专知论文

会员服务 ·

0

梯度 · 最优 · 损失 · 发散 · 结构 ·

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures

翻译：SAD神经网络：基于o-极小结构的梯度流发散性与渐近最优性

Julian Kranz,Davide Gallon,Steffen Dereich,Arnulf Jentzen

from arxiv, Accepted for NeurIPS 2025, 30 pages, 6 figures. The result about continuous data distributions now has an additional assumption since a gap was identified in a previous version of the proof

We study gradient flows for loss landscapes of fully connected feedforward neural networks with commonly used continuously differentiable activation functions such as the logistic, hyperbolic tangent, softplus or GELU function. We prove that the gradient flow either converges to a critical point or diverges to infinity while the loss converges to an asymptotic critical value. Moreover, we prove the existence of a threshold $\varepsilon>0$ such that the loss value of any gradient flow initialized at most $\varepsilon$ above the optimal level converges to it. For polynomial target functions and sufficiently big architecture and data set, we prove that the optimal loss value is zero and can only be realized asymptotically. From this setting, we deduce our main result that any gradient flow with sufficiently good initialization diverges to infinity. Our proof heavily relies on the geometry of o-minimal structures. We confirm these theoretical findings with numerical experiments and extend our investigation to more realistic scenarios, where we observe an analogous behavior.

翻译：本研究针对具有常用连续可微激活函数（如逻辑函数、双曲正切函数、softplus或GELU函数）的全连接前馈神经网络，分析其损失函数景观的梯度流动态。我们证明梯度流要么收敛到临界点，要么发散至无穷大，同时损失函数收敛于渐近临界值。此外，我们证明存在阈值$\varepsilon>0$，使得任何初始损失值至多高于最优水平$\varepsilon$的梯度流，其损失值都将收敛至该最优水平。对于多项式目标函数及足够大的网络架构与数据集，我们证明最优损失值为零且仅能渐近实现。基于此设定，我们推导出主要结论：任何具有足够优质初始化的梯度流都将发散至无穷大。本证明深度依赖于o-极小结构的几何性质。我们通过数值实验验证了这些理论发现，并将研究拓展至更现实的场景，在其中观察到类似的行为模式。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

21+阅读 · 2025年7月17日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知

75+阅读 · 2020年6月29日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

神经网络常微分方程 (Neural ODEs) 解析

神经网络常微分方程 (Neural ODEs) 解析

AI科技评论

42+阅读 · 2019年8月9日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

长文 | LSTM和循环神经网络基础教程（PDF下载）

长文 | LSTM和循环神经网络基础教程（PDF下载）

机器学习算法与Python学习

14+阅读 · 2018年2月28日

最全的DNN概述论文：详解前馈、卷积和循环神经网络技术

最全的DNN概述论文：详解前馈、卷积和循环神经网络技术

深度学习世界

33+阅读 · 2017年9月15日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量网络算法研究低维量子系统中的非局域关联和量子相变的标度行为

国家自然科学基金

0+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Spiking Neural Networks for Continuous Control via End-to-End Model-Based Learning

Arxiv

0+阅读 · 2月3日

Fractal and Regular Geometry of Deep Neural Networks

Arxiv

0+阅读 · 1月28日

Müntz-Szász Networks: Neural Architectures with Learnable Power-Law Bases

Arxiv

0+阅读 · 1月20日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

On Bayesian Neural Networks with Dependent and Possibly Heavy-Tailed Weights

Arxiv

0+阅读 · 1月14日

Convergence of gradient flow for learning convolutional neural networks

Arxiv

0+阅读 · 1月13日

Gradient-free online learning of subgrid-scale dynamics with neural emulators

Arxiv

0+阅读 · 1月13日

Wide Neural Networks as a Baseline for the Computational No-Coincidence Conjecture

Arxiv

0+阅读 · 1月11日

From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions

Arxiv

0+阅读 · 1月11日

Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

7+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

3+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

2+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

3+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

2+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

2+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

5+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

9+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

5+阅读 · 4月20日

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

14+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

14+阅读 · 4月19日

相关VIP内容

深度线性神经网络的梯度流方程：一项基于网络视角的综述

深度线性神经网络的梯度流方程：一项基于网络视角的综述

专知会员服务

8+阅读 · 2025年11月14日

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

【普林斯顿博士论文】理解神经网络的训练动态：局部优化轨迹与特征学习视角

专知会员服务

21+阅读 · 2025年7月17日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

【ICML2020】持续图神经网络，Continuous Graph Neural Networks

专知

75+阅读 · 2020年6月29日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

神经网络常微分方程 (Neural ODEs) 解析

神经网络常微分方程 (Neural ODEs) 解析

AI科技评论

42+阅读 · 2019年8月9日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

长文 | LSTM和循环神经网络基础教程（PDF下载）

长文 | LSTM和循环神经网络基础教程（PDF下载）

机器学习算法与Python学习

14+阅读 · 2018年2月28日

最全的DNN概述论文：详解前馈、卷积和循环神经网络技术

最全的DNN概述论文：详解前馈、卷积和循环神经网络技术

深度学习世界

33+阅读 · 2017年9月15日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关论文

Spiking Neural Networks for Continuous Control via End-to-End Model-Based Learning

Arxiv

0+阅读 · 2月3日

Fractal and Regular Geometry of Deep Neural Networks

Arxiv

0+阅读 · 1月28日

Müntz-Szász Networks: Neural Architectures with Learnable Power-Law Bases

Arxiv

0+阅读 · 1月20日

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Arxiv

0+阅读 · 1月14日

On Bayesian Neural Networks with Dependent and Possibly Heavy-Tailed Weights

Arxiv

0+阅读 · 1月14日

Convergence of gradient flow for learning convolutional neural networks

Arxiv

0+阅读 · 1月13日

Gradient-free online learning of subgrid-scale dynamics with neural emulators

Arxiv

0+阅读 · 1月13日

Wide Neural Networks as a Baseline for the Computational No-Coincidence Conjecture

Arxiv

0+阅读 · 1月11日

From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions

Arxiv

0+阅读 · 1月11日

Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws

Arxiv

0+阅读 · 2025年12月31日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

自组织递归二型小波模糊神经网络的研究及在微型飞行器姿态控制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于张量网络算法研究低维量子系统中的非局域关联和量子相变的标度行为

国家自然科学基金

0+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员