成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
Scaling Law
关注
0
从目前的研究总结发现,模型规模的扩展是LLM能力提升的一个关键因素。从GPT-3的175B参数量到PaLM的540B记录,都验证了模型规模的扩展,导致能力的提升。 当然,大的模型尺寸是必不可少的,但是扩展定律并不仅限于此,它一共包括三个方面: 模型尺寸(Model size) 数据规模(Data size) 总计算量(Total compute) 此外,预训练数据的质量在保证模型性能方面有着关键作用,因此在扩展语料库时,要注意数据收集和清理的策略。
综合
百科
VIP
热门
动态
论文
精华
Scaling Law of Neural Koopman Operators
Arxiv
0+阅读 · 2月23日
xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity
Arxiv
0+阅读 · 2月20日
Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD?
Arxiv
0+阅读 · 3月2日
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
Arxiv
0+阅读 · 2月19日
Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining
Arxiv
0+阅读 · 2月23日
Scaling Laws for Reranking in Information Retrieval
Arxiv
0+阅读 · 3月5日
Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
Arxiv
0+阅读 · 3月1日
Bending the Scaling Law Curve in Large-Scale Recommendation Systems
Arxiv
0+阅读 · 2月19日
Quantifying construct validity in large language model evaluations
Arxiv
0+阅读 · 2月17日
Neural Scaling Laws for Boosted Jet Tagging
Arxiv
0+阅读 · 2月17日
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
Arxiv
0+阅读 · 2月17日
Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules
Arxiv
0+阅读 · 2月15日
Generalizing Scaling Laws for Dense and Sparse Large Language Models
Arxiv
0+阅读 · 2月9日
Capacity Scaling Laws for Boundary-Induced Drift-Diffusion Noise Channels
Arxiv
0+阅读 · 2月8日
Kunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design
Arxiv
0+阅读 · 2月13日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top