Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning - 专知论文

会员服务 ·

0

剪枝 · 贪心 · 梯度 · Transformer模型 · Transformer ·

Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning

翻译：Greedy-Gnorm：一种基于梯度矩阵范数的注意力头剪枝方法，替代注意力熵

Yuxi Guo,Paul Sheridan

from arxiv, 24 pages, 5 figures, 5 tables

Attention head pruning has emerged as an effective technique for transformer model compression, an increasingly important goal in the era of Green AI. However, existing pruning methods often rely on static importance scores, which fail to capture the evolving role of attention heads during iterative removal. We propose Greedy-Gradient norm (Greedy-Gnorm), a novel head pruning algorithm that dynamically recalculates head importance after each pruning step. Specifically, each head is scored by the elementwise product of the l2-norms of its Q/K/V gradient blocks, as estimated from a hold-out validation set and updated at every greedy iteration. This dynamic approach to scoring mitigates against stale rankings and better reflects gradient-informed importance as pruning progresses. Extensive experiments on BERT, ALBERT, RoBERTa, and XLM-RoBERTa demonstrate that Greedy-Gnorm consistently preserves accuracy under substantial head removal, outperforming attention entropy. By effectively reducing model size while maintaining task performance, Greedy-Gnorm offers a promising step toward more energy-efficient transformer model deployment.

翻译：注意力头剪枝已成为Transformer模型压缩的有效技术，在绿色AI时代这一目标日益重要。然而，现有剪枝方法通常依赖于静态重要性评分，无法捕捉迭代移除过程中注意力头角色的动态变化。我们提出Greedy-Gradient范数（Greedy-Gnorm），一种新颖的注意力头剪枝算法，在每次剪枝步骤后动态重新计算头的重要性。具体而言，每个头的评分由其Q/K/V梯度块的逐元素l2范数乘积决定，该估计基于保留验证集并在每次贪婪迭代中更新。这种动态评分方法缓解了陈旧排名问题，并更好地反映了剪枝过程中梯度信息的重要性。在BERT、ALBERT、RoBERTa和XLM-RoBERTa上的大量实验表明，Greedy-Gnorm在显著移除注意力头的情况下能持续保持准确性，优于注意力熵方法。通过有效减小模型尺寸同时保持任务性能，Greedy-Gnorm为实现更节能的Transformer模型部署提供了有前景的途径。

0

相关内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于Xampling的Gabor框架条件下的窄脉冲信号采集方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Arxiv

0+阅读 · 3月12日

GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression

Arxiv

0+阅读 · 2月22日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization

Arxiv

0+阅读 · 2月19日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Arxiv

0+阅读 · 2月16日

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

Arxiv

0+阅读 · 2月12日

FlattenGPT: Depth Compression for Transformer with Layer Flattening

Arxiv

0+阅读 · 2月9日

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

Arxiv

0+阅读 · 2月9日

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

Transformer模型

最新内容

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

3+阅读 · 今天14:33

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

2+阅读 · 今天14:32

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

9+阅读 · 今天7:05

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

6+阅读 · 今天6:51

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

5+阅读 · 今天6:43

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

4+阅读 · 今天6:40

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

4+阅读 · 今天6:38

《美空军条令出版物 4-0，维持》

《美空军条令出版物 4-0，维持》

专知会员服务

4+阅读 · 今天6:32

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天6:30

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

专知会员服务

3+阅读 · 今天6:25

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

专知会员服务

4+阅读 · 今天6:24

《基于仿真的空军任务规划优化》

《基于仿真的空军任务规划优化》

专知会员服务

4+阅读 · 今天6:21

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

专知会员服务

3+阅读 · 今天6:17

《基于语义分割与深度强化学习的战场环境战术路径规划》

《基于语义分割与深度强化学习的战场环境战术路径规划》

专知会员服务

5+阅读 · 今天6:14

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

4+阅读 · 6月8日

相关VIP内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知会员服务

30+阅读 · 2021年12月2日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

【剑桥博士论文】智能体-环境协同优化

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Arxiv

0+阅读 · 3月12日

GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression

Arxiv

0+阅读 · 2月22日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

ReplaceMe: Network Simplification via Depth Pruning and Transformer Block Linearization

Arxiv

0+阅读 · 2月19日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Arxiv

0+阅读 · 2月16日

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

Arxiv

0+阅读 · 2月12日

FlattenGPT: Depth Compression for Transformer with Layer Flattening

Arxiv

0+阅读 · 2月9日

SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning

Arxiv

0+阅读 · 2月9日

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning

Arxiv

0+阅读 · 2月3日

相关基金

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于Xampling的Gabor框架条件下的窄脉冲信号采集方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑岩石剪切局部化细观特征的Mohr—Coulomb强度修正准则

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员