Neural scaling laws relate loss to model size in large language models (LLMs), yet depth and width may contribute to performance differently, requiring more detailed studies. Here, we quantify how depth affects loss via analysis of LLMs and toy residual networks. We find loss scales inversely proportional to depth in LLMs, probably due to functionally similar layers reducing error through ensemble averaging rather than compositional learning or discretizing smooth dynamics. This regime is inefficient yet robust and may arise from the architectural bias of residual networks and target functions incompatible with smooth dynamics. The findings suggest that improving LLM efficiency may require architectural innovations to encourage compositional use of depth.


翻译:神经缩放定律描述了大规模语言模型(LLM)中损失与模型规模的关系,但深度与宽度对性能的影响可能不同,需要更细致的研究。本文通过分析LLM与玩具残差网络,量化了深度对损失的影响。我们发现LLM中的损失与深度成反比缩放,这很可能源于功能相似的层通过集成平均降低误差,而非通过组合学习或离散化平滑动力学实现。该机制虽效率低下但具有鲁棒性,可能源于残差网络的结构偏置以及与平滑动力学不相容的目标函数。研究结果表明,提升LLM效率可能需要通过架构创新来促进深度的组合式利用。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
深入卷积神经网络背后的数学原理
人工智能学家
10+阅读 · 2019年4月26日
用缩放CNN消除反卷积带来的棋盘伪影
论智
19+阅读 · 2018年10月30日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员