Finding parameters in a deep neural network (NN) that fit training data is a nonconvex optimization problem, but a basic first-order optimization method (gradient descent) finds a global solution with perfect fit in many practical situations. We examine this phenomenon for the case of Residual Neural Networks (ResNet) with smooth activation functions in a limiting regime in which both the number of layers (depth) and the number of neurons in each layer (width) go to infinity. First, we use a mean-field-limit argument to prove that the gradient descent for parameter training becomes a partial differential equation (PDE) that characterizes gradient flow for a probability distribution in the large-NN limit. Next, we show that the solution to the PDE converges in the training time to a zero-loss solution. Together, these results imply that training of the ResNet also gives a near-zero loss if the Resnet is large enough. We give estimates of the depth and width needed to reduce the loss below a given threshold, with high probability.


翻译:深神经网络(NN)的查找参数显示,适合培训数据是一个非convex优化问题,但基本的第一阶优化方法(渐降法)发现一种完全适合许多实际情况的全球解决方案。我们在一个限制制度下为残余神经网络(ResNet)研究这种现象,该现象具有平稳的激活功能,该限制制度规定,每个层(深度)的数量和每个层(宽度)的神经元数量都具有无限性。首先,我们使用一个平均场限制参数培训的参数梯度下降为部分差异方程式(PDE),该方程式将梯度流定性为大-NNN极限的概率分布。接下来,我们显示PDE的解决方案在培训时间会汇合为零损失解决方案。这些结果共同表明,如果Resnet足够大,Resnet的培训也会造成近零损失。我们估计了将损失降到一个临界值以下所需的深度和宽度,概率很高。

0
下载
关闭预览

相关内容

专知会员服务
162+阅读 · 2020年1月16日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
0+阅读 · 16分钟前
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
0+阅读 · 26分钟前
人工智能及其在海军行动中的整合(综述)
专知会员服务
0+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
15+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
16+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
22+阅读 · 4月12日
相关VIP内容
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】TensorFlow手把手CNN实践指南
机器学习研究会
5+阅读 · 2017年8月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员