Neural scaling laws predict how language model performance improves with increased compute. While aggregate metrics like validation loss can follow smooth power-law curves, individual downstream tasks exhibit diverse scaling behaviors: some improve monotonically, others plateau, and some even degrade with scale. We argue that predicting downstream performance from validation perplexity suffers from two limitations: averaging token-level losses obscures signal, and no simple parametric family can capture the full spectrum of scaling behaviors. To address this, we propose Neural Neural Scaling Laws (NeuNeu), a neural network that frames scaling law prediction as time-series extrapolation. NeuNeu combines temporal context from observed accuracy trajectories with token-level validation losses, learning to predict future performance without assuming any bottleneck or functional form. Trained entirely on open-source model checkpoints from HuggingFace, NeuNeu achieves 2.04% mean absolute error in predicting model accuracy on 66 downstream tasks -- a 38% reduction compared to logistic scaling laws (3.29% MAE). Furthermore, NeuNeu generalizes zero-shot to unseen model families, parameter counts, and downstream tasks. Our work suggests that predicting downstream scaling laws directly from data outperforms parametric alternatives.


翻译:神经缩放定律预测了语言模型性能如何随着计算量的增加而提升。虽然验证损失等聚合指标可以遵循平滑的幂律曲线,但个体下游任务却表现出多样化的缩放行为:有些任务单调改进,有些则趋于平稳,甚至有些会随规模扩大而性能下降。我们认为,从验证困惑度预测下游性能存在两个局限性:平均词元级损失会掩盖信号,且没有简单的参数族能够捕捉全部缩放行为谱系。为解决此问题,我们提出神经神经缩放定律(NeuNeu),这是一个将缩放定律预测构建为时间序列外推任务的神经网络。NeuNeu结合了从观测到的准确率轨迹中提取的时间上下文信息与词元级验证损失,无需假设任何瓶颈或函数形式即可学习预测未来性能。完全基于HuggingFace开源模型检查点进行训练后,NeuNeu在66个下游任务的模型准确率预测中实现了2.04%的平均绝对误差——相较于逻辑缩放定律(3.29% MAE)降低了38%。此外,NeuNeu能够零样本泛化到未见过的模型族、参数量级和下游任务。我们的研究表明,直接从数据预测下游缩放定律优于参数化替代方法。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
【剑桥大学博士论文】卷积条件神经过程,226页pdf
专知会员服务
25+阅读 · 2024年8月21日
【博士论文】神经语言模型的参数效率,199页pdf
专知会员服务
33+阅读 · 2024年3月13日
最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员