We analyze neural scaling laws in a solvable model of last-layer fine-tuning where targets have intrinsic, instance-heterogeneous difficulty. In our Latent Instance Difficulty (LID) model, each input's target variance is governed by a latent ``precision'' drawn from a heavy-tailed distribution. While generalization loss recovers standard scaling laws, our main contribution connects this to inference. The pass@$k$ failure rate exhibits a power-law decay, $k^{-β_\text{eff}}$, but the observed exponent $β_\text{eff}$ is training-dependent. It grows with sample size $N$ before saturating at an intrinsic limit $β$ set by the difficulty distribution's tail. This coupling reveals that learning shrinks the ``hard tail'' of the error distribution: improvements in the model's generalization error steepen the pass@$k$ curve until irreducible target variance dominates. The LID model yields testable, closed-form predictions for this behavior, including a compute-allocation rule that favors training before saturation and inference attempts after. We validate these predictions in simulations and in two real-data proxies: CIFAR-10H (human-label variance) and a maths teacher-student distillation task.


翻译:我们分析了在目标具有内在、实例异质难度的可解末层微调模型中的神经缩放定律。在我们的潜在实例难度(LID)模型中,每个输入的目标方差由从重尾分布中抽取的潜在“精度”控制。虽然泛化损失恢复了标准的缩放定律,但我们的主要贡献在于将其与推理联系起来。pass@$k$ 失败率呈现幂律衰减 $k^{-β_\text{eff}}$,但观察到的指数 $β_\text{eff}$ 是训练依赖的。它随样本量 $N$ 增长,在达到由难度分布尾部设定的内在极限 $β$ 后饱和。这种耦合揭示了学习会收缩误差分布的“困难尾部”:模型泛化误差的改善使 pass@$k$ 曲线变陡,直到不可约的目标方差占主导地位。LID 模型为这种行为提供了可检验的闭式预测,包括一个计算分配规则:在饱和前优先训练,在饱和后增加推理尝试。我们在模拟以及两个真实数据代理(CIFAR-10H 的人类标注方差和数学师生蒸馏任务)中验证了这些预测。

0
下载
关闭预览

相关内容

【牛津大学博士论文】深度学习算法的渐近分析,186页pdf
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【牛津大学博士论文】深度学习算法的渐近分析,186页pdf
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员