We provide the first proof of learning rate transfer with width in a linear multi-layer perceptron (MLP) parametrized with $μ$P, a neural network parameterization designed to ``maximize'' feature learning in the infinite-width limit. We show that under $μP$, the optimal learning rate converges to a \emph{non-zero constant} as width goes to infinity, providing a theoretical explanation to learning rate transfer. In contrast, we show that this property fails to hold under alternative parametrizations such as Standard Parametrization (SP) and Neural Tangent Parametrization (NTP). We provide intuitive proofs and support the theoretical findings with extensive empirical results.


翻译:在线性多层感知机(MLP)中,我们首次给出了在μP参数化下学习率随宽度迁移的证明。μP是一种旨在在无限宽度极限下“最大化”特征学习的神经网络参数化方法。我们证明,在μP下,当宽度趋于无穷时,最优学习率收敛于一个非零常数,从而为学习率迁移现象提供了理论解释。相比之下,我们表明这一性质在其他参数化方法(如标准参数化(SP)和神经正切参数化(NTP))下并不成立。我们提供了直观的证明,并通过大量实验结果支持了理论发现。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】大规模模型的迁移学习与优化理论
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
47+阅读 · 2022年8月17日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
70+阅读 · 2021年10月17日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
迁移自适应学习最新综述,附21页论文下载
【免费下载】迁移学习简明手册
新智元
21+阅读 · 2018年4月13日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员