Adaptive optimization algorithms such as Adam are widely used in deep learning. The stability of such algorithms is often improved with a warmup schedule for the learning rate. Motivated by the difficulty of choosing and tuning warmup schedules, recent work proposes automatic variance rectification of Adam's adaptive learning rate, claiming that this rectified approach ("RAdam") surpasses the vanilla Adam algorithm and reduces the need for expensive tuning of Adam with warmup. In this work, we refute this analysis and provide an alternative explanation for the necessity of warmup based on the magnitude of the update term, which is of greater relevance to training stability. We then provide some "rule-of-thumb" warmup schedules, and we demonstrate that simple untuned warmup of Adam performs more-or-less identically to RAdam in typical practical settings. We conclude by suggesting that practitioners stick to linear warmup with Adam, with a sensible default being linear warmup over $2 / (1 - \beta_2)$ training iterations.


翻译:亚当这样的适应性优化算法在深层学习中被广泛使用。 这种算法的稳定性往往随着学习率的暖化计划而得到改善。 受选择和调整暖化计划难度的驱使, 最近的工作提议对亚当的适应性学习率进行自动差异校正, 声称这一纠正方法( “ RADAM ” ) 超越了香草亚当算法, 并减少了亚当用暖化来进行昂贵的热调的需要 。 在这项工作中, 我们反驳了这一分析, 并为根据更新术语的大小( 与培训稳定性的关系更大) 进行暖化的必要性提供了另一种解释 。 我们接着提供了一些“ 规则” 的热调计划, 我们展示了在典型的实际环境下, 亚当 简单不调暖和的亚当 与 RADAM 的 相同。 我们最后建议, 开业者与亚当 坚持线性热调, 合理的默认是线性热超过 2 / ( 1 -\ beta_ 2 ) 。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Optimization for deep learning: theory and algorithms
Arxiv
106+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2018年11月19日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关VIP内容
专知会员服务
45+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
相关论文
Top
微信扫码咨询专知VIP会员