Predicting model performance at larger scales enables the design of training strategies and architectures tailored to specific performance targets. Empirical scaling law research identifies functional forms to aid this prediction task. These describe the relationship between loss and compute using a loss-compute frontier defined by learning curves. Due to the empirical nature of this approach, the computational burden is substantial, making strategic resource allocation essential - yet it remains surprisingly underexplored. In this work, we address this shortcoming by exploring the suitability of Successive Halving (SH) and SH combined with parametric and non-parametric surrogate models. In addition to enabling a more systematic allocation of a given compute budget, our findings show that SH paired with surrogate models yields a set of learning curves that includes one with a lower loss-compute value than what naive uniform allocation or an SH-only approach can obtain. Our experiments demonstrate mean relative improvements of up to 2.84% and 5.47% on real-world and synthetic learning curve datasets. This strategic resource allocation enables us to obtain accurate scaling laws at significantly reduced computational costs, saving up to 98.7% over the traditional exhaustive approach.


翻译:预测更大规模下的模型性能,有助于设计针对特定性能目标的训练策略和架构。经验缩放定律研究通过识别函数形式来辅助这一预测任务,这些函数形式利用由学习曲线定义的损失-计算前沿,描述损失与计算量之间的关系。由于该方法的经验性质,计算负担相当大,使得战略资源分配至关重要——然而,这一领域却出人意料地尚未得到充分探索。在本工作中,我们通过探索连续减半(SH)以及SH与参数化和非参数化代理模型结合使用的适用性,来弥补这一不足。除了能够更系统地分配给定计算预算外,我们的研究结果表明,SH与代理模型结合使用生成的一组学习曲线中,包含了一条损失-计算值低于朴素均匀分配或仅使用SH方法所能获得的曲线。我们的实验表明,在真实世界和合成学习曲线数据集上,平均相对改进分别高达2.84%和5.47%。这种战略资源分配使我们能够在显著降低计算成本的情况下获得准确的缩放定律,相比传统的穷举方法,节省高达98.7%的计算资源。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
《动态规划算法在武器-目标分配中的应用》30页报告
专知会员服务
152+阅读 · 2024年1月28日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
29+阅读 · 2022年1月24日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
《动态规划算法在武器-目标分配中的应用》30页报告
专知会员服务
152+阅读 · 2024年1月28日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
29+阅读 · 2022年1月24日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员