We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Unlike many prior analyses, our results, while perturbative in width, are non-perturbative in the strength of feature learning. Starting from a dynamical mean field theory (DMFT) description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initialization of the network weights. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final NTK and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the SNR of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.


翻译:我们分析了宽但有限的特征学习神经网络中有限宽度效应的动力学。与许多先前分析不同,我们的结果虽然在宽度上是微扰的,但在特征学习强度上是非微扰的。从无限宽度深度神经网络核与预测动力学的动态平均场理论(DMFT)描述出发,我们刻画了DMFT序参量在随机初始化网络权重时$\mathcal{O}(1/\sqrt{\text{宽度}})$的波动。在网络训练的懒惰极限中,所有核都是随机的但随时间静态,且预测方差具有普适形式。然而,在丰富的特征学习机制中,核与预测的波动动态耦合,其方差可自洽计算。对于两层网络,我们展示了特征学习如何动态地降低最终NTK和最终网络预测的方差。同时,我们揭示了初始化方差如何减慢宽但有限网络中的在线学习。对于更深网络,在强特征学习强度下,核方差会通过后续层显著积累,但特征学习持续改善特征核的信噪比。在离散时间中,我们证明了大学习率现象(如稳定边界效应)能被无限宽度动力学很好地捕捉,且初始化方差会动态减小。对于在CIFAR-10上训练的CNN,我们经验性地发现有限宽度对网络动力学的偏差和方差均带来显著修正。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2021年5月19日
专知会员服务
52+阅读 · 2020年12月14日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
15+阅读 · 2020年4月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
分享神经网络中设计loss function的一些技巧
极市平台
35+阅读 · 2019年1月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
66+阅读 · 2021年6月18日
Arxiv
13+阅读 · 2021年5月25日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
专知会员服务
51+阅读 · 2021年5月19日
专知会员服务
52+阅读 · 2020年12月14日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
15+阅读 · 2020年4月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
分享神经网络中设计loss function的一些技巧
极市平台
35+阅读 · 2019年1月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员