Deep convolutional neural networks (CNN) have achieved the unwavering confidence in its performance on image processing tasks. The CNN architecture constitutes a variety of different types of layers including the convolution layer and the max-pooling layer. CNN practitioners widely understand the fact that the stability of learning depends on how to initialize the model parameters in each layer. Nowadays, no one doubts that the de facto standard scheme for initialization is the so-called Kaiming initialization that has been developed by He et al. The Kaiming scheme was derived from a much simpler model than the currently used CNN structure having evolved since the emergence of the Kaiming scheme. The Kaiming model consists only of the convolution and fully connected layers, ignoring the max-pooling layer and the global average pooling layer. In this study, we derived the initialization scheme again not from the simplified Kaiming model, but precisely from the modern CNN architectures, and empirically investigated how the new initialization method performs compared to the de facto standard ones that are widely used today.


翻译:深相神经网络(CNN)在图像处理任务上的表现中获得了坚定的信心。CNN结构是由不同种类的层次组成的,包括卷动层和最大集合层。CNN从业人员广泛理解学习的稳定性取决于如何在每一层中初始化模型参数。如今,没有人怀疑事实上的初始化标准计划是赫等人开发的所谓开明初始化计划。Kaiming计划来自一个比自开明计划出现以来目前使用的CNN结构演变的简单得多的模式。 交响模型仅包括交汇层和完全相连层,忽略了最大集合层和全球平均集合层。 在这项研究中,我们再次从简化的Kaiming模型中,而确切地从现代CNN结构中推导出初始化计划,并用经验调查新的初始化方法如何与今天广泛使用的实际标准结构相比较。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
已删除
将门创投
11+阅读 · 2019年8月13日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
6+阅读 · 2020年10月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 今天15:03
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关资讯
已删除
将门创投
11+阅读 · 2019年8月13日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员