Layer-wise capacity in large language models is highly non-uniform: some layers contribute disproportionately to loss reduction while others are near-redundant. Existing methods for exploiting this non-uniformity, such as influence-function-based layer scoring, produce sensitivity estimates but offer no principled mechanism for translating them into allocation or pruning decisions under hardware constraints. We address this gap with a unified, curvature-aware framework grounded in the Minimum Description Length (MDL) principle. Our central quantity is the curvature-adjusted layer gain $ζ_k^2 = g_k^\top \widetilde{H}_{kk}^{-1} g_k$, which we show equals twice the maximal second-order reduction in empirical risk achievable by updating layer $k$ alone, and which strictly dominates gradient-norm-based scores by incorporating local curvature. Normalizing these gains into layer quality scores $q_k$, we formulate two convex MDL programs: a capacity allocation program that distributes expert slots or LoRA rank preferentially to high-curvature layers under diminishing returns, and a pruning program that concentrates sparsity on low-gain layers while protecting high-gain layers from degradation. Both programs admit unique closed-form solutions parameterized by a single dual variable, computable in $O(K \log 1/\varepsilon)$ via bisection. We prove an $O(δ^2)$ transfer regret bound showing that source-domain allocations remain near-optimal on target tasks when curvature scores drift by $δ$, with explicit constants tied to the condition number of the target program. Together, these results elevate layer-wise capacity optimization from an empirical heuristic to a theoretically grounded, computationally efficient framework with provable optimality and generalization guarantees.


翻译:大语言模型中的层间容量呈现高度非均匀分布:部分层对损失降低的贡献不成比例,而其他层则近乎冗余。现有利用这种非均匀性的方法(例如基于影响函数的层评分)虽能生成敏感性估计,但缺乏在硬件约束下将其转化为分配或剪枝决策的原则性机制。本文基于最小描述长度原理,提出一个统一的曲率感知框架来填补这一空白。我们的核心量是曲率调整层增益 $ζ_k^2 = g_k^\top \widetilde{H}_{kk}^{-1} g_k$,我们证明该量等于单独更新第 $k$ 层时经验风险可实现的二阶最大减少量的两倍,并且通过纳入局部曲率信息,该量严格优于基于梯度范数的评分。将这些增益归一化为层质量分数 $q_k$ 后,我们构建了两个凸 MDL 优化问题:一个容量分配问题,在收益递减条件下将专家槽位或 LoRA 秩优先分配给高曲率层;一个剪枝问题,将稀疏性集中于低增益层,同时保护高增益层免于性能退化。这两个问题均存在由单一对偶变量参数化的唯一闭式解,可通过二分法在 $O(K \log 1/\varepsilon)$ 复杂度内计算。我们证明了 $O(δ^2)$ 的迁移遗憾界,表明当曲率分数漂移 $δ$ 时,源域分配在目标任务上仍保持接近最优,其显式常数与目标问题条件数相关。综上,这些成果将层间容量优化从经验启发式方法提升为一个理论严谨、计算高效且具有可证明最优性与泛化保证的框架。

0
下载
关闭预览

相关内容

稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
大型模型中的参数高效微调:方法论综述
专知会员服务
69+阅读 · 2024年11月3日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
102+阅读 · 2024年4月12日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
超全总结:神经网络加速之量化模型 | 附带代码
一文概览基于深度学习的超分辨率重建架构
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
大语言模型在规划与调度问题上的应用
专知会员服务
51+阅读 · 2025年1月12日
大型模型中的参数高效微调:方法论综述
专知会员服务
69+阅读 · 2024年11月3日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
102+阅读 · 2024年4月12日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
86+阅读 · 2022年10月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员