Optimal configuration of the learning rate (LR) is a fundamental yet formidable challenge in large-scale pre-training. Given the stringent trade-off between training costs and model performance, the pivotal question is whether the optimal LR can be accurately extrapolated from low-cost experiments. In this paper, we formalize this investigation into two distinct research paradigms: Fitting and Transfer. Within the Fitting Paradigm, we innovatively introduce a Scaling Law for search factor, effectively reducing the search complexity from O(n^3) to O(n*C_D*C_η) via predictive modeling. Within the Transfer Paradigm, we extend the principles of $μ$Transfer to the Mixture of Experts (MoE) architecture, broadening its applicability to encompass model depth, weight decay, and token horizons. By pushing the boundaries of existing hyperparameter research in terms of scale, we conduct a comprehensive comparison between these two paradigms. Our empirical results challenge the scalability of the widely adopted $μ$ Transfer in large-scale pre-training scenarios. Furthermore, we provide a rigorous analysis through the dual lenses of training stability and feature learning to elucidate the underlying reasons why module-wise parameter tuning underperforms in large-scale settings. This work offers systematic practical guidelines and a fresh theoretical perspective for optimizing industrial-level pre-training.


翻译:学习率(LR)的最优配置是大规模预训练中一个基础且极具挑战性的问题。鉴于训练成本与模型性能之间的严格权衡,核心问题在于:是否能够从低成本的实验中准确外推出最优学习率。在本文中,我们将此研究形式化为两种不同的研究范式:拟合范式与迁移范式。在拟合范式中,我们创新性地引入了搜索因子的缩放定律,通过预测建模将搜索复杂度从 O(n^3) 有效降低至 O(n*C_D*C_η)。在迁移范式中,我们将 $μ$Transfer 的原理扩展至混合专家(MoE)架构,从而将其适用范围拓宽至模型深度、权重衰减和令牌范围。通过将现有超参数研究的规模边界推向极致,我们对这两种范式进行了全面比较。我们的实证结果对广泛采用的 $μ$Transfer 在大规模预训练场景中的可扩展性提出了挑战。此外,我们通过训练稳定性和特征学习的双重视角进行了严谨分析,以阐明模块级参数调优在大规模设置中表现不佳的根本原因。这项工作为优化工业级预训练提供了系统的实践指南和全新的理论视角。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
如何找到最优学习率?
AI研习社
11+阅读 · 2017年11月29日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
预训练视觉模型的参数高效微调
专知会员服务
32+阅读 · 2024年3月19日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员