The considerable layer-wise redundancy in large language models (LLMs) has established non-uniform sparsity allocation across layers as the standard pruning approach for efficient compression. Existing layer-wise allocation methods that estimate allocation strategy from local signals such as activation outliers or weight spectra mainly derive from local layer importance, whereas the final post-pruning performance is also influenced by the network's subsequent compensatory capacity. In this paper, we directly characterize this property through controlled perturbation experiments. We make the following empirical findings. First, layers exhibit highly heterogeneous responses to pruning-scale perturbations. In most cases, early layers amplify perturbations, while middle and late layers actively absorb them, with relative L2 drift decreasing monotonically across depth and direction realigning toward the unperturbed hidden-state trajectory. Second, absorption is a large-perturbation phenomenon. Under small perturbations the network exhibits amplification across all layers, and the transition to absorption occurs smoothly as perturbation magnitude grows to pruning scale. This enriches the linearized accumulation theory underlying related works. Building on these findings, we define an absorption coefficient per layer and propose absorption-aware correction, an orthogonal augmentation that improves OWL and AlphaPruning by reducing perplexity by 7.13% and boosting zero-shot accuracy by 1.02% across multiple model families at 70% sparsity.


翻译:大型语言模型(LLMs)中存在的显著层间冗余,使得跨层非均匀稀疏分配成为实现高效压缩的标准剪枝方法。现有基于局部信号(如激活异常值或权重谱)估计分配策略的逐层分配方法,主要源自局部层重要性,而剪枝后的最终性能还受到网络后续补偿能力的影响。本文通过受控扰动实验直接刻画该特性。我们得到以下实证发现:首先,各层对剪枝尺度的扰动表现出高度异质性响应。多数情况下,浅层放大扰动,而中层与深层主动吸收扰动,相对L2漂移沿深度方向单调递减,且方向重新向未扰动的隐藏状态轨迹对齐。其次,吸收行为是大扰动现象。在小扰动下,网络各层均表现为放大效应,且随扰动幅度增长至剪枝规模,向吸收的转变平滑发生。这丰富了相关研究中所依赖的线性化累积理论。基于上述发现,我们定义每层吸收系数,并提出吸收感知校正——一种正交增强方法,在70%稀疏度下,通过将困惑度降低7.13%、零样本准确率提升1.02%,改进了OWL与AlphaPruning算法,适用于多个模型族。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
51+阅读 · 2025年12月3日
【CVPR2021】探索图像超分辨率中的稀疏性以实现高效推理
专知会员服务
19+阅读 · 2021年4月3日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员