Can Language Models Discover Scaling Laws? - 专知论文

会员服务 ·

0

缩放 · Scaling Law · 语言模型 · 智能体 · 法律 ·

Can Language Models Discover Scaling Laws?

翻译：语言模型能否发现缩放定律？

Haowei Lin,Haotian Ye,Wenzheng Feng,Quzhe Huang,Yujun Li,Hubert Lim,Zhengrui Li,Xiangyu Wang,Jianzhu Ma,James Zou,Yitao Liang

Discovering scaling laws for predicting model performance at scale is a fundamental and open-ended challenge, mostly reliant on slow, case specific human experimentation. To investigate the potential for LLMs to automate this process, we collect over 5,000 experiments from existing literature and curate eight diverse scaling law discovery tasks. While existing agents struggle to produce accurate law formulas, this paper introduces SLDAgent, an evolution-based agent that co-optimize the scaling law model and the parameters, enabling it to autonomously explore complex relationships between variables. For the first time, we demonstrates that SLDAgent can automatically discover laws that exhibit consistently more accurate extrapolation than their established, human-derived counterparts across all tasks. Through comprehensive analysis, we elucidate why these discovered laws are superior and verify their practical utility in both pretraining and finetuning applications. This work establishes a new paradigm for agentic scientific discovery, showing that AI systems can understand their own scaling behavior, and can contribute novel and practical knowledge back to the research community.

翻译：发现用于预测模型在大规模下性能的缩放定律是一个基础且开放性的挑战，目前主要依赖于缓慢、针对特定案例的人工实验。为了探究大型语言模型自动化此过程的潜力，我们从现有文献中收集了超过5000个实验，并策划了八个多样化的缩放定律发现任务。虽然现有智能体难以生成准确的法律公式，但本文引入了SLDAgent，这是一种基于进化的智能体，能够协同优化缩放定律模型及其参数，使其能够自主探索变量间的复杂关系。我们首次证明，在所有任务中，SLDAgent能够自动发现的定律，其外推预测的准确性始终优于已确立的、由人类推导的对应定律。通过全面分析，我们阐明了这些发现的定律为何更优，并验证了它们在预训练和微调应用中的实际效用。这项工作为智能体驱动的科学发现建立了一个新范式，表明人工智能系统能够理解自身的缩放行为，并能够向研究社区贡献新颖且实用的知识。

0

相关内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

从计算理论看语言模型的scaling law和多模态模型的发展

从计算理论看语言模型的scaling law和多模态模型的发展

专知会员服务

29+阅读 · 2024年6月27日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

87+阅读 · 2022年10月29日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Deriving Neural Scaling Laws from the statistics of natural language

Arxiv

0+阅读 · 2月12日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月30日

Neural Neural Scaling Laws

Arxiv

0+阅读 · 1月27日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月25日

Theoretical Foundations of Scaling Law in Familial Models

Arxiv

0+阅读 · 1月23日

On the origin of neural scaling laws: from random graphs to natural language

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

神经缩放定律的起源：从随机图到自然语言

神经缩放定律的起源：从随机图到自然语言

专知会员服务

14+阅读 · 1月17日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

从计算理论看语言模型的scaling law和多模态模型的发展

从计算理论看语言模型的scaling law和多模态模型的发展

专知会员服务

29+阅读 · 2024年6月27日

一文速览大语言模型提示最新进展

一文速览大语言模型提示最新进展

专知会员服务

80+阅读 · 2023年12月24日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

87+阅读 · 2022年10月29日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Arxiv

0+阅读 · 2月17日

Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules

Arxiv

0+阅读 · 2月15日

Deriving Neural Scaling Laws from the statistics of natural language

Arxiv

0+阅读 · 2月12日

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Arxiv

0+阅读 · 2月9日

Towards Robust Scaling Laws for Optimizers

Arxiv

0+阅读 · 2月7日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月30日

Neural Neural Scaling Laws

Arxiv

0+阅读 · 1月27日

Scaling Laws for Moral Machine Judgment in Large Language Models

Arxiv

0+阅读 · 1月25日

Theoretical Foundations of Scaling Law in Familial Models

Arxiv

0+阅读 · 1月23日

On the origin of neural scaling laws: from random graphs to natural language

Arxiv

0+阅读 · 1月15日

相关基金

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

碰撞接触中的尺度缩放效应

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员