A Free Lunch in LLM Compression: Revisiting Retraining after Pruning - 专知论文

会员服务 ·

0

剪枝 · 语言模型 · 粒度 · 模型压缩 · 大语言模型 ·

A Free Lunch in LLM Compression: Revisiting Retraining after Pruning

翻译：大语言模型压缩中的“免费午餐”：重新审视剪枝后的重训练

Moritz Wagner,Christophe Roux,Max Zimmer,Sebastian Pokutta

Post-training pruning substantially reduces inference costs but often causes severe quality degradation without adapting the remaining weights. For LLMs, such retraining is commonly considered impractical due to large computational costs, motivating increasingly sophisticated pruning criteria to compensate by selecting better sparsity patterns. In this work, we revisit post-pruning adaptation and study local reconstruction: adapting only a small pruned submodel at a time using a small calibration set by matching intermediate activations of the dense model. We conduct a large-scale study across model families and scales (up to 72B parameters) and establish three central results. First, local reconstruction is an effective adaptation mechanism for LLMs, matching post-pruning PEFT while using over an order of magnitude less data and compute. Second, we identify a broad "free lunch" regime in reconstruction granularity: across a wide range of submodel sizes, final quality remains essentially unchanged, allowing granularity to be chosen based on memory constraints. Finally, with reconstruction, the pruning criterion becomes less critical: performance gaps between sophisticated methods and simple baselines shrink with model size, making simple methods competitive again. Collectively, our results challenge the prevailing narrative that post-pruning adaptation is impractical for LLMs.

翻译：训练后剪枝能显著降低推理成本，但若不调整剩余权重，常导致严重的质量下降。对于大语言模型，此类重训练通常被认为因计算成本巨大而不切实际，这促使人们设计日益复杂的剪枝标准，以期通过选择更优的稀疏模式来补偿。在本工作中，我们重新审视剪枝后的适应过程，并研究局部重构：仅使用小型校准集，通过匹配稠密模型的中间激活，每次仅适应一个小的、已剪枝的子模型。我们在不同模型系列和规模（最高达720亿参数）上进行了大规模研究，并确立了三个核心结果。首先，局部重构是大语言模型一种有效的适应机制，其效果与剪枝后的参数高效微调相当，但使用的数据和计算量少一个数量级以上。其次，我们识别出重构粒度中存在一个广泛的“免费午餐”区间：在很宽的子模型大小范围内，最终质量基本保持不变，从而允许根据内存约束选择粒度。最后，通过重构，剪枝标准的重要性降低：复杂方法与简单基线之间的性能差距随模型规模增大而缩小，使得简单方法重新具备竞争力。总体而言，我们的研究结果挑战了当前普遍认为的、对大语言模型进行剪枝后适应不切实际的看法。

0

相关内容

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

LLM后训练：深入探讨推理大语言模型

LLM后训练：深入探讨推理大语言模型

专知会员服务

40+阅读 · 2025年3月3日

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

日光温室桃树缩冠修剪-树冠恢复期营养生长-生殖生长水分调控效应及补偿作用机制

国家自然科学基金

0+阅读 · 2014年12月31日

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Arxiv

0+阅读 · 3月17日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization

Arxiv

0+阅读 · 2月19日

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

Arxiv

0+阅读 · 2月12日

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

Arxiv

0+阅读 · 2月9日

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Arxiv

0+阅读 · 2月8日

Efficient Post-Training Pruning of Large Language Models with Statistical Correction

Arxiv

0+阅读 · 2月7日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale

Arxiv

0+阅读 · 2月2日

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 13分钟前

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 14分钟前

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

LLM后训练：深入探讨推理大语言模型

LLM后训练：深入探讨推理大语言模型

专知会员服务

40+阅读 · 2025年3月3日

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

相关论文

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Arxiv

0+阅读 · 3月17日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization

Arxiv

0+阅读 · 2月19日

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

Arxiv

0+阅读 · 2月12日

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

Arxiv

0+阅读 · 2月9日

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Arxiv

0+阅读 · 2月8日

Efficient Post-Training Pruning of Large Language Models with Statistical Correction

Arxiv

0+阅读 · 2月7日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale

Arxiv

0+阅读 · 2月2日

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs

Arxiv

0+阅读 · 2月2日

相关基金

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

日光温室桃树缩冠修剪-树冠恢复期营养生长-生殖生长水分调控效应及补偿作用机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员