Despite the fact that experimental neural scaling laws have substantially guided empirical progress in large-scale machine learning, no existing theory can quantitatively predict the exponents of these important laws for any modern LLM trained on any natural language dataset. We provide the first such theory in the case of data-limited scaling laws. We isolate two key statistical properties of language that alone can predict neural scaling exponents: (i) the decay of pairwise token correlations with time separation between token pairs, and (ii) the decay of the next-token conditional entropy with the length of the conditioning context. We further derive a simple formula in terms of these statistics that predicts data-limited neural scaling exponents from first principles without any free parameters or synthetic data models. Our theory exhibits a remarkable match with experimentally measured neural scaling laws obtained from training GPT-2 and LLaMA style models from scratch on two qualitatively different benchmarks, TinyStories and WikiText.


翻译:尽管实验神经缩放定律在很大程度上指导了大规模机器学习的实证进展,但现有理论尚无法针对任何现代大语言模型在任何自然语言数据集上的训练,定量预测这些重要定律的指数。我们在数据受限的缩放定律情形下提出了首个此类理论。我们分离出语言的两个关键统计特性,仅凭这些特性即可预测神经缩放指数:(i) 词元对相关性随时间间隔的衰减规律,以及 (ii) 下一词元条件熵随上下文长度增加的衰减规律。我们进一步推导出一个基于这些统计量的简洁公式,该公式无需任何自由参数或合成数据模型,即可从第一性原理预测数据受限的神经缩放指数。我们的理论在实验测量的神经缩放定律中表现出显著的一致性——这些实验数据通过从头训练GPT-2和LLaMA架构模型获得,并在两个性质不同的基准数据集(TinyStories和WikiText)上得到验证。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
从计算理论看语言模型的scaling law和多模态模型的发展
专知会员服务
29+阅读 · 2024年6月27日
最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
一文了解自然语言处理神经史
云栖社区
11+阅读 · 2018年12月2日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
Natural 自然语言处理(NLP)「全解析」
人工智能学家
14+阅读 · 2017年9月23日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月14日
VIP会员
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员