Optimal Initialization in Depth: Lyapunov Initialization and Limit Theorems for Deep Leaky ReLU Networks - 专知论文

会员服务 ·

0

初始化 · Lyapunov · 深度网络 · ReLU · 最优 ·

Optimal Initialization in Depth: Lyapunov Initialization and Limit Theorems for Deep Leaky ReLU Networks

翻译：深度网络的最优初始化：Lyapunov初始化与深度Leaky ReLU网络的极限定理

Constantin Kogler,Tassilo Schwarz,Samuel Kittle

from arxiv, Preprint, 44 pages

Effective initialization in deep networks requires an understanding of random neural networks. In this work, a rigorous probabilistic analysis of deep bias-free random Leaky ReLU networks is provided. We prove a Law of Large Numbers and a Central Limit Theorem for the logarithm of the norm of network activations, establishing that, as the number of layers increases, their growth is governed by a parameter called the Lyapunov exponent. This parameter characterizes a sharp phase transition between vanishing and exploding activations, and we calculate the Lyapunov exponent explicitly for Gaussian or orthogonal weight matrices. Our results reveal that standard methods, such as He initialization or orthogonal initialization, do not guarantee activation stability for deep networks of low width. Based on these theoretical insights, we propose a novel initialization method, referred to as Lyapunov initialization, which sets the Lyapunov exponent to zero and thereby ensures that the neural network is as stable as possible, leading empirically to improved learning.

翻译：深度网络的有效初始化需要理解随机神经网络。本文对无偏置的深度随机Leaky ReLU网络提供了严格的概率分析。我们证明了网络激活值范数对数的强大数定律与中心极限定理，确立了随着层数增加，其增长由称为Lyapunov指数的参数所支配。该参数刻画了激活值消失与爆炸之间的尖锐相变，并针对高斯或正交权重矩阵显式计算了Lyapunov指数。我们的研究揭示，标准方法（如He初始化或正交初始化）无法保证低宽度深度网络的激活稳定性。基于这些理论见解，我们提出了一种新的初始化方法，即Lyapunov初始化，通过将Lyapunov指数设为零，确保神经网络尽可能稳定，并在经验上提升了学习效果。

0

相关内容

初始化

神经网络宽度是什么？EPFL博士论文《有限宽度神经网络的理论：泛化、缩放定律和损失观》，197页pdf

神经网络宽度是什么？EPFL博士论文《有限宽度神经网络的理论：泛化、缩放定律和损失观》，197页pdf

专知会员服务

35+阅读 · 2023年8月24日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知会员服务

48+阅读 · 2022年11月4日

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

专知会员服务

86+阅读 · 2021年10月22日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

49+阅读 · 2020年5月19日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

吴恩达团队：神经网络如何正确初始化？

吴恩达团队：神经网络如何正确初始化？

AI100

11+阅读 · 2019年5月15日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

万字长文带你看尽深度学习中的各种卷积网络

万字长文带你看尽深度学习中的各种卷积网络

AI科技评论

11+阅读 · 2019年2月19日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

51+阅读 · 2019年1月6日

Coursera吴恩达《卷积神经网络》课程笔记（1）-- 卷积神经网络基础

Coursera吴恩达《卷积神经网络》课程笔记（1）-- 卷积神经网络基础

机器学习研究会

29+阅读 · 2018年1月29日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss

Arxiv

0+阅读 · 6月9日

Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods

Arxiv

0+阅读 · 6月4日

Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks

Arxiv

0+阅读 · 6月4日

Mitigating the Curse of Dimensionality in Uniform Convergence of Deep Neural Networks via Smooth Activations

Arxiv

0+阅读 · 6月4日

Knockoffs-based False Discovery Rate Control and Simplification for Deep Neural Networks

Arxiv

0+阅读 · 6月3日

Mildly Overparameterized ReLU Networks on Orthogonal Data: Incremental Learning and Implicit Bias

Arxiv

0+阅读 · 5月26日

Shallow ReLU$^s$ Networks in $L^p$-Type and Sobolev Spaces: Approximation and Path-Norm Controlled Generalization

Arxiv

0+阅读 · 5月21日

Theory of Minimal Weight Perturbations in Deep Networks and its Applications for Low-Rank Activated Backdoor Attacks

Arxiv

0+阅读 · 5月18日

A Theory of Saddle Escape in Deep Nonlinear Networks

Arxiv

0+阅读 · 5月8日

On Minimal Depth in Neural Networks

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

神经网络宽度是什么？EPFL博士论文《有限宽度神经网络的理论：泛化、缩放定律和损失观》，197页pdf

神经网络宽度是什么？EPFL博士论文《有限宽度神经网络的理论：泛化、缩放定律和损失观》，197页pdf

专知会员服务

35+阅读 · 2023年8月24日

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

【苏黎世联邦理工博士论文】深度神经网络的鲁棒性与正则化，233页pdf

专知会员服务

48+阅读 · 2022年11月4日

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

专知会员服务

86+阅读 · 2021年10月22日

最新《机器学习理论初探》概述

最新《机器学习理论初探》概述

专知会员服务

49+阅读 · 2020年5月19日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

【北京智源大会2019】神经网络的优化Optimization for Overparametrized Deep Neural Networks，北京大学 | 王立威

专知会员服务

23+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

吴恩达团队：神经网络如何正确初始化？

吴恩达团队：神经网络如何正确初始化？

AI100

11+阅读 · 2019年5月15日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

万字长文带你看尽深度学习中的各种卷积网络

万字长文带你看尽深度学习中的各种卷积网络

AI科技评论

11+阅读 · 2019年2月19日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

51+阅读 · 2019年1月6日

Coursera吴恩达《卷积神经网络》课程笔记（1）-- 卷积神经网络基础

Coursera吴恩达《卷积神经网络》课程笔记（1）-- 卷积神经网络基础

机器学习研究会

29+阅读 · 2018年1月29日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

【深度学习基础】4. Recurrent Neural Networks

【深度学习基础】4. Recurrent Neural Networks

微信AI

16+阅读 · 2017年7月19日

相关论文

Deeper or Wider: A Perspective from Optimal Generalization Error with Sobolev Loss

Arxiv

0+阅读 · 6月9日

Generalization in Deep Neural Networks: Minimax Rates for Gradient Methods

Arxiv

0+阅读 · 6月4日

Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks

Arxiv

0+阅读 · 6月4日

Mitigating the Curse of Dimensionality in Uniform Convergence of Deep Neural Networks via Smooth Activations

Arxiv

0+阅读 · 6月4日

Knockoffs-based False Discovery Rate Control and Simplification for Deep Neural Networks

Arxiv

0+阅读 · 6月3日

Mildly Overparameterized ReLU Networks on Orthogonal Data: Incremental Learning and Implicit Bias

Arxiv

0+阅读 · 5月26日

Shallow ReLU$^s$ Networks in $L^p$-Type and Sobolev Spaces: Approximation and Path-Norm Controlled Generalization

Arxiv

0+阅读 · 5月21日

Theory of Minimal Weight Perturbations in Deep Networks and its Applications for Low-Rank Activated Backdoor Attacks

Arxiv

0+阅读 · 5月18日

A Theory of Saddle Escape in Deep Nonlinear Networks

Arxiv

0+阅读 · 5月8日

On Minimal Depth in Neural Networks

Arxiv

0+阅读 · 3月19日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

极限学习机拓展研究及其在近红外光谱分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员