Deriving Neural Scaling Laws from the statistics of natural language - 专知论文

会员服务 ·

0

缩放 · Scaling Law · 统计特性 · 数据受限 · 词元 ·

Deriving Neural Scaling Laws from the statistics of natural language

翻译：从自然语言统计特性推导神经缩放定律

Francesco Cagnetta,Allan Raventós,Surya Ganguli,Matthieu Wyart

Despite the fact that experimental neural scaling laws have substantially guided empirical progress in large-scale machine learning, no existing theory can quantitatively predict the exponents of these important laws for any modern LLM trained on any natural language dataset. We provide the first such theory in the case of data-limited scaling laws. We isolate two key statistical properties of language that alone can predict neural scaling exponents: (i) the decay of pairwise token correlations with time separation between token pairs, and (ii) the decay of the next-token conditional entropy with the length of the conditioning context. We further derive a simple formula in terms of these statistics that predicts data-limited neural scaling exponents from first principles without any free parameters or synthetic data models. Our theory exhibits a remarkable match with experimentally measured neural scaling laws obtained from training GPT-2 and LLaMA style models from scratch on two qualitatively different benchmarks, TinyStories and WikiText.

翻译：尽管实验神经缩放定律在很大程度上指导了大规模机器学习的实证进展，但现有理论尚无法定量预测任何现代大语言模型在任何自然语言数据集上训练所得重要定律的指数。我们针对数据受限的缩放定律首次提出了此类理论。我们分离出语言的两个关键统计特性，仅凭这两者即可预测神经缩放指数：(i) 词元对相关性随时间间隔的衰减规律，以及 (ii) 下一词元条件熵随上下文长度的衰减规律。我们进一步推导出基于这些统计量的简明公式，该公式无需任何自由参数或合成数据模型，即可从第一性原理预测数据受限的神经缩放指数。我们的理论在实验测量的神经缩放定律中表现出显著一致性——通过在两个性质迥异的基准数据集（TinyStories 和 WikiText）上从头训练 GPT-2 和 LLaMA 风格模型获得。

0

相关内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

从计算理论看语言模型的scaling law和多模态模型的发展

从计算理论看语言模型的scaling law和多模态模型的发展

专知会员服务

29+阅读 · 2024年6月27日

【佐治亚理工博士论文】用自然语言解释神经网络，157页pdf

【佐治亚理工博士论文】用自然语言解释神经网络，157页pdf

专知会员服务

46+阅读 · 2023年3月14日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

38+阅读 · 2021年9月7日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

110+阅读 · 2020年9月1日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

一文了解自然语言处理神经史

一文了解自然语言处理神经史

云栖社区

11+阅读 · 2018年12月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

Scaling Laws for Reranking in Information Retrieval

Arxiv

0+阅读 · 3月5日

Scaling Law of Neural Koopman Operators

Arxiv

0+阅读 · 2月23日

Scaling Laws for Precision in High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月22日

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design

Arxiv

0+阅读 · 2月10日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Optimal scaling laws in learning hierarchical multi-index models

Arxiv

0+阅读 · 2月5日

Beyond the Loss Curve: Scaling Laws, Active Learning, and the Limits of Learning from Exact Posteriors

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

0+阅读 · 6分钟前

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

0+阅读 · 55分钟前

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

1+阅读 · 54分钟前

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

1+阅读 · 今天14:57

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

3+阅读 · 今天14:50

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

2+阅读 · 今天14:48

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

13+阅读 · 5月27日

ICML2026 | 重新思考顺序知识编辑中的正则化

ICML2026 | 重新思考顺序知识编辑中的正则化

专知会员服务

7+阅读 · 5月27日

《用于兵力发展选项优先排序的成本效益模型》

《用于兵力发展选项优先排序的成本效益模型》

专知会员服务

11+阅读 · 5月27日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 5月27日

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

美军战场新倡议——国防自主作战群（DAWG）：五角大楼的540亿美元自主作战豪赌

专知会员服务

8+阅读 · 5月27日

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

ICML2026 | LAVL：离线目标条件强化学习中的潜在表示对齐

专知会员服务

7+阅读 · 5月26日

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

10+阅读 · 5月26日

《Palantir边缘人工智能》手册

《Palantir边缘人工智能》手册

专知会员服务

25+阅读 · 5月26日

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

人工智能与现代战争：2026年美以对伊打击如何重构杀伤链

专知会员服务

16+阅读 · 5月26日

相关VIP内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

从计算理论看语言模型的scaling law和多模态模型的发展

从计算理论看语言模型的scaling law和多模态模型的发展

专知会员服务

29+阅读 · 2024年6月27日

【佐治亚理工博士论文】用自然语言解释神经网络，157页pdf

【佐治亚理工博士论文】用自然语言解释神经网络，157页pdf

专知会员服务

46+阅读 · 2023年3月14日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

38+阅读 · 2021年9月7日

【复旦大学刘鹏飞博士论文】自然语言处理中的神经表示学习，153页pdf

专知会员服务

110+阅读 · 2020年9月1日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

Agent Harness综述：大模型智能体执行器工程全景

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

相关资讯

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

面向自然语言处理的神经网络迁移学习，NLP网红Ruder博士329页论文（附下载）

专知

18+阅读 · 2019年3月24日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

【干货】33页最新《自然语言处理中神经注意力机制综述》论文

专知

31+阅读 · 2019年2月10日

一文了解自然语言处理神经史

一文了解自然语言处理神经史

云栖社区

11+阅读 · 2018年12月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Scaling Laws for Reranking in Information Retrieval

Arxiv

0+阅读 · 3月5日

Scaling Law of Neural Koopman Operators

Arxiv

0+阅读 · 2月23日

Scaling Laws for Precision in High-Dimensional Linear Regression

Arxiv

0+阅读 · 2月22日

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design

Arxiv

0+阅读 · 2月10日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Optimal scaling laws in learning hierarchical multi-index models

Arxiv

0+阅读 · 2月5日

Beyond the Loss Curve: Scaling Laws, Active Learning, and the Limits of Learning from Exact Posteriors

Arxiv

0+阅读 · 1月30日

相关基金

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

部分特征值统计量的中心极限定理及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员