CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference - 专知论文

会员服务 ·

0

令牌 · 剪枝 · 精度 · 多模 · 模态 ·

CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

翻译：CATP：面向精度保持的多模态模型推理的交叉注意力令牌剪枝

Ruqi Liao,Chuqing Zhao,Jin Li,Weiqi Feng,Yi Lyu,Bingxian Chen,Haochen Yang

In response to the rising interest in large multimodal models, we introduce Cross-Attention Token Pruning (CATP), a precision-focused token pruning method. Our approach leverages cross-attention layers in multimodal models, exemplified by BLIP-2, to extract valuable information for token importance determination. CATP employs a refined voting strategy across model heads and layers. In evaluations, CATP achieves up to 12.1X higher accuracy compared to existing token pruning methods, addressing the trade-off between computational efficiency and model precision.

翻译：针对大型多模态模型日益增长的研究需求，本文提出交叉注意力令牌剪枝（CATP）——一种以精度为核心的令牌剪枝方法。该方法利用以BLIP-2为代表的多模态模型中的交叉注意力层，提取用于令牌重要性判定的关键信息。CATP通过跨模型注意力头与网络层的精细化投票策略实现剪枝决策。实验评估表明，相较于现有令牌剪枝方法，CATP在计算效率与模型精度的权衡中取得突破，最高可实现12.1倍的精度提升。

0

相关内容

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

专知

50+阅读 · 2019年9月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

基于单向链路时延的SCPS-TP双端双向拥塞控制模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

P3P问题解分布的临界曲面研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于交通流量概率推理的不规则交叉口交通信号配时参数优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月9日

POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models

Arxiv

0+阅读 · 2月6日

Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning

Arxiv

0+阅读 · 2月4日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Reg4Pru: Regularisation Through Random Token Routing for Token Pruning

Arxiv

0+阅读 · 2月3日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

Arxiv

0+阅读 · 2月3日

HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

1+阅读 · 54分钟前

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

0+阅读 · 55分钟前

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

4+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

相关VIP内容

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

【KDD2023】考虑约束的排序蒸馏令牌修剪，用于高效的Transformer推断

专知会员服务

23+阅读 · 2023年7月20日

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

【KDD2023】面向高效 Transformer 推断的约束感知与排序蒸馏Token剪枝

专知会员服务

21+阅读 · 2023年6月28日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 推理时控制：可信大语言模型的运行时治理全景

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

BES：让语言模型通过双向进化搜索自我改进

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

【论文笔记】注意力机制的协同过滤模型 Attentive Collaborative Filtering(ACF)

专知

50+阅读 · 2019年9月23日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月9日

POP: Online Structural Pruning Enables Efficient Inference of Large Foundation Models

Arxiv

0+阅读 · 2月6日

Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning

Arxiv

0+阅读 · 2月4日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Reg4Pru: Regularisation Through Random Token Routing for Token Pruning

Arxiv

0+阅读 · 2月3日

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

Arxiv

0+阅读 · 2月3日

SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass

Arxiv

0+阅读 · 2月3日

HQP: Sensitivity-Aware Hybrid Quantization and Pruning for Ultra-Low-Latency Edge AI Inference

Arxiv

0+阅读 · 2月2日

相关基金

基于单向链路时延的SCPS-TP双端双向拥塞控制模型与算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

P3P问题解分布的临界曲面研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

基于交通流量概率推理的不规则交叉口交通信号配时参数优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员