Neural Neural Scaling Laws - 专知论文

会员服务 ·

0

缩放 · Scaling Law · 损失 · 下游任务 · 词元 ·

Neural Neural Scaling Laws

翻译：神经神经缩放定律

Michael Y. Hu,Jane Pan,Ayush Rajesh Jhaveri,Nicholas Lourie,Kyunghyun Cho

Neural scaling laws predict how language model performance improves with increased compute. While aggregate metrics like validation loss can follow smooth power-law curves, individual downstream tasks exhibit diverse scaling behaviors: some improve monotonically, others plateau, and some even degrade with scale. We argue that predicting downstream performance from validation perplexity suffers from two limitations: averaging token-level losses obscures signal, and no simple parametric family can capture the full spectrum of scaling behaviors. To address this, we propose Neural Neural Scaling Laws (NeuNeu), a neural network that frames scaling law prediction as time-series extrapolation. NeuNeu combines temporal context from observed accuracy trajectories with token-level validation losses, learning to predict future performance without assuming any bottleneck or functional form. Trained entirely on open-source model checkpoints from HuggingFace, NeuNeu achieves 2.04% mean absolute error in predicting model accuracy on 66 downstream tasks -- a 38% reduction compared to logistic scaling laws (3.29% MAE). Furthermore, NeuNeu generalizes zero-shot to unseen model families, parameter counts, and downstream tasks. Our work suggests that predicting downstream scaling laws directly from data outperforms parametric alternatives.

翻译：神经缩放定律预测了语言模型性能如何随着计算量的增加而提升。虽然验证损失等聚合指标可以遵循平滑的幂律曲线，但个体下游任务却表现出多样化的缩放行为：有些任务单调改进，有些则趋于平稳，甚至有些会随规模扩大而性能下降。我们认为，从验证困惑度预测下游性能存在两个局限性：平均词元级损失会掩盖信号，且没有简单的参数族能够捕捉全部缩放行为谱系。为解决此问题，我们提出神经神经缩放定律（NeuNeu），这是一个将缩放定律预测构建为时间序列外推任务的神经网络。NeuNeu结合了从观测到的准确率轨迹中提取的时间上下文信息与词元级验证损失，无需假设任何瓶颈或函数形式即可学习预测未来性能。完全基于HuggingFace开源模型检查点进行训练后，NeuNeu在66个下游任务的模型准确率预测中实现了2.04%的平均绝对误差——相较于逻辑缩放定律（3.29% MAE）降低了38%。此外，NeuNeu能够零样本泛化到未见过的模型族、参数量级和下游任务。我们的研究表明，直接从数据预测下游缩放定律优于参数化替代方法。

0

相关内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

【剑桥大学博士论文】卷积条件神经过程，226页pdf

【剑桥大学博士论文】卷积条件神经过程，226页pdf

专知会员服务

25+阅读 · 2024年8月21日

【博士论文】神经语言模型的参数效率，199页pdf

【博士论文】神经语言模型的参数效率，199页pdf

专知会员服务

33+阅读 · 2024年3月13日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

光刺激实现神经纤维选择性刺激的方法研究及理论模拟

国家自然科学基金

0+阅读 · 2015年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多层次系统研究SMN2基因表达的调控以开发治疗脊肌萎缩症的新途径

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design

Arxiv

0+阅读 · 2月13日

Deriving Neural Scaling Laws from the statistics of natural language

Arxiv

0+阅读 · 2月12日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Optimal scaling laws in learning hierarchical multi-index models

Arxiv

0+阅读 · 2月5日

Theoretical Foundations of Scaling Law in Familial Models

Arxiv

0+阅读 · 1月23日

On the origin of neural scaling laws: from random graphs to natural language

Arxiv

0+阅读 · 1月15日

Can Language Models Discover Scaling Laws?

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

【剑桥大学博士论文】卷积条件神经过程，226页pdf

【剑桥大学博士论文】卷积条件神经过程，226页pdf

专知会员服务

25+阅读 · 2024年8月21日

【博士论文】神经语言模型的参数效率，199页pdf

【博士论文】神经语言模型的参数效率，199页pdf

专知会员服务

33+阅读 · 2024年3月13日

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

深度学习如何用于压缩？UCI&谷歌这本《神经数据压缩导论》阐述最新进展，91页pdf

专知会员服务

37+阅读 · 2022年12月9日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

相关论文

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design

Arxiv

0+阅读 · 2月13日

Deriving Neural Scaling Laws from the statistics of natural language

Arxiv

0+阅读 · 2月12日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Optimal scaling laws in learning hierarchical multi-index models

Arxiv

0+阅读 · 2月5日

Theoretical Foundations of Scaling Law in Familial Models

Arxiv

0+阅读 · 1月23日

On the origin of neural scaling laws: from random graphs to natural language

Arxiv

0+阅读 · 1月15日

Can Language Models Discover Scaling Laws?

Arxiv

0+阅读 · 1月14日

相关基金

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

光刺激实现神经纤维选择性刺激的方法研究及理论模拟

国家自然科学基金

0+阅读 · 2015年12月31日

社会性预期优势效应的神经机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

介观兴奋/抑制神经元网络的放电动力学行为特性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多层次系统研究SMN2基因表达的调控以开发治疗脊肌萎缩症的新途径

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员