Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity - 专知论文

会员服务 ·

0

令牌 · 冗余 · 多样性 · 协同 · 语言模型 ·

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

翻译：剪除冗余，保留本质：基于协同重要性-多样性的视觉语言模型视觉令牌压缩

Zhengyao Fang,Pengyuan Lyu,Chengquan Zhang,Guangming Lu,Jun Yu,Wenjie Pei

from arxiv, accepted by ICLR2026

Vision-language models (VLMs) face significant computational inefficiencies caused by excessive generation of visual tokens. While prior work shows that a large fraction of visual tokens are redundant, existing compression methods struggle to balance importance preservation and information diversity. To address this, we propose PruneSID, a training-free Synergistic Importance-Diversity approach featuring a two-stage pipeline: (1) Principal Semantic Components Analysis (PSCA) for clustering tokens into semantically coherent groups, ensuring comprehensive concept coverage, and (2) Intra-group Non-Maximum Suppression (NMS) for pruning redundant tokens while preserving key representative tokens within each group. Additionally, PruneSID incorporates an information-aware dynamic compression ratio mechanism that optimizes token compression rates based on image complexity, enabling more effective average information preservation across diverse scenes. Extensive experiments demonstrate state-of-the-art performance, achieving 96.3% accuracy on LLaVA-1.5 with only 11.1% token retention, and 92.8% accuracy at extreme compression rates (5.6%) on LLaVA-NeXT, outperforming prior methods by 2.5% with 7.8 $\times$ faster prefilling speed compared to the original model. Our framework generalizes across diverse VLMs and both image and video modalities, showcasing strong cross-modal versatility. Code is available at https://github.com/ZhengyaoFang/PruneSID.

翻译：视觉语言模型（VLMs）因生成过多视觉令牌而面临显著的计算效率低下问题。先前研究表明，大部分视觉令牌是冗余的，但现有压缩方法难以在重要性保留与信息多样性之间取得平衡。为此，我们提出PruneSID，一种无需训练的协同重要性-多样性方法，其采用两阶段流程：（1）主语义成分分析（PSCA），用于将令牌聚类成语义连贯的组，确保全面的概念覆盖；（2）组内非极大值抑制（NMS），用于剪除冗余令牌，同时保留每组内的关键代表性令牌。此外，PruneSID引入了一种信息感知的动态压缩比机制，该机制根据图像复杂度优化令牌压缩率，从而能够在不同场景下实现更有效的平均信息保留。大量实验证明了其最先进的性能：在LLaVA-1.5上仅保留11.1%的令牌即可达到96.3%的准确率；在LLaVA-NeXT上，即使在极端压缩率（5.6%）下也能达到92.8%的准确率，优于先前方法2.5%，且预填充速度比原始模型快7.8倍。我们的框架可泛化至多种VLMs以及图像和视频模态，展现出强大的跨模态通用性。代码发布于 https://github.com/ZhengyaoFang/PruneSID。

0

相关内容

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

14+阅读 · 2025年4月12日

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

专知会员服务

10+阅读 · 2025年3月11日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

15+阅读 · 2025年3月1日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

AI100

10+阅读 · 2019年3月16日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Arxiv

0+阅读 · 2月23日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

Arxiv

0+阅读 · 2月9日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models

Arxiv

0+阅读 · 2月5日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning

Arxiv

0+阅读 · 2月3日

Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model

Arxiv

0+阅读 · 2月2日

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

在无标注条件下适配视觉—语言模型：全面综述

在无标注条件下适配视觉—语言模型：全面综述

专知会员服务

13+阅读 · 2025年8月9日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

【ICCV2025】具有局部对齐视觉-语言模型的可解释零样本学习

专知会员服务

10+阅读 · 2025年7月1日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

14+阅读 · 2025年4月12日

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

【CVPR2025】先过滤图像，后生成指令：视觉指令调优的预指令数据选择

专知会员服务

10+阅读 · 2025年3月11日

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

【CVPR2025】ProAPO: 逐步自动化提示优化用于视觉分类

专知会员服务

15+阅读 · 2025年3月1日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

【NeurlPS2024】一种适用于跨模态和任务的视觉-语言模型的统一去偏方法

专知会员服务

22+阅读 · 2024年10月11日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

AI100

10+阅读 · 2019年3月16日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Arxiv

0+阅读 · 2月23日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

Arxiv

0+阅读 · 2月9日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月5日

PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models

Arxiv

0+阅读 · 2月5日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning

Arxiv

0+阅读 · 2月3日

Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model

Arxiv

0+阅读 · 2月2日

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Arxiv

0+阅读 · 1月30日

相关基金

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

面向可穿戴设备的压缩感知关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员