PPE：多模态大语言模型中用于令牌压缩的位置保持嵌入 (PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models) - 专知论文

会员服务 ·

0

令牌 · 多模 · 模态 · 嵌入 · 多模态 ·

PPE: Positional Preservation Embedding for Token Compression in Multimodal Large Language Models

翻译：PPE：多模态大语言模型中用于令牌压缩的位置保持嵌入

Mouxiao Huang,Borui Jiang,Dehua Zheng,Hailin Hu,Kai Han,Xinghao Chen

from arxiv, ICLR 2026

Multimodal large language models (MLLMs) have achieved strong performance on vision-language tasks, yet often suffer from inefficiencies due to redundant visual tokens. Existing token merging methods reduce sequence length but frequently disrupt spatial layouts and temporal continuity by disregarding positional relationships. In this work, we propose a novel encoding operator dubbed as \textbf{P}ositional \textbf{P}reservation \textbf{E}mbedding (\textbf{PPE}), which has the main hallmark of preservation of spatiotemporal structure during visual token compression. PPE explicitly introduces the disentangled encoding of 3D positions in the token dimension, enabling each compressed token to encapsulate different positions from multiple original tokens. Furthermore, we show that PPE can effectively support cascade clustering -- a progressive token compression strategy that leads to better performance retention. PPE is a parameter-free and generic operator that can be seamlessly integrated into existing token merging methods without any adjustments. Applied to state-of-the-art token merging framework, PPE achieves consistent improvements of $2\%\sim5\%$ across multiple vision-language benchmarks, including MMBench (general vision understanding), TextVQA (layout understanding) and VideoMME (temporal understanding). These results demonstrate that preserving positional cues is critical for efficient and effective MLLM reasoning. Our code is available at https://github.com/MouxiaoHuang/PPE.

翻译：多模态大语言模型（MLLMs）在视觉-语言任务上取得了强劲的性能，但常因冗余的视觉令牌而导致效率低下。现有的令牌合并方法通过减少序列长度来提升效率，却往往因忽略位置关系而破坏了空间布局与时间连续性。本文提出一种新颖的编码算子，称为**位置保持嵌入**（**PPE**），其核心特征是在视觉令牌压缩过程中保持时空结构。PPE在令牌维度显式引入解耦的三维位置编码，使每个压缩后的令牌能够封装来自多个原始令牌的不同位置信息。此外，我们证明PPE能有效支持级联聚类——一种渐进式令牌压缩策略，可实现更好的性能保持。PPE是一种无需参数、通用性强的算子，无需任何调整即可无缝集成到现有的令牌合并方法中。应用于最先进的令牌合并框架时，PPE在多个视觉-语言基准测试中实现了$2\%\sim5\%$的稳定性能提升，包括MMBench（通用视觉理解）、TextVQA（布局理解）和VideoMME（时序理解）。这些结果表明，保持位置线索对于实现高效且有效的MLLM推理至关重要。代码已开源：https://github.com/MouxiaoHuang/PPE。

0

相关内容

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

36+阅读 · 2024年9月25日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

多波束卫星通信中基于压缩感知的预编码设计与干扰消除技术

国家自然科学基金

1+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Arxiv

0+阅读 · 3月11日

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Arxiv

0+阅读 · 2月23日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Arxiv

0+阅读 · 2月10日

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Arxiv

0+阅读 · 2月4日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model

Arxiv

0+阅读 · 2月2日

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

8+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

9+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

5+阅读 · 今天6:12

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

1+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

7+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

6+阅读 · 4月13日

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

专知会员服务

12+阅读 · 4月13日

技术、多域威慑与海上战争（报告）

技术、多域威慑与海上战争（报告）

专知会员服务

7+阅读 · 4月13日

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

4+阅读 · 4月13日

“在云端防御”：提升北约数据韧性（报告）

“在云端防御”：提升北约数据韧性（报告）

专知会员服务

4+阅读 · 4月13日

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

专知会员服务

10+阅读 · 4月13日

2026年伊朗战争对美国通胀的影响：情景分析（报告）

2026年伊朗战争对美国通胀的影响：情景分析（报告）

专知会员服务

2+阅读 · 4月13日

人工智能及其在海军行动中的整合（综述）

人工智能及其在海军行动中的整合（综述）

专知会员服务

6+阅读 · 4月13日

美以伊冲突：无人机主导的第三次海湾战争反防空作战

美以伊冲突：无人机主导的第三次海湾战争反防空作战

专知会员服务

4+阅读 · 4月13日

多模态XR-AI训练系统提升联合作战中的沟通技能（中文万字长文）

多模态XR-AI训练系统提升联合作战中的沟通技能（中文万字长文）

专知会员服务

4+阅读 · 4月13日

相关VIP内容

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

36+阅读 · 2024年9月25日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

西工大最新《多模态大型语言模型》全面综述

西工大最新《多模态大型语言模型》全面综述

专知会员服务

70+阅读 · 2024年8月6日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

【CVPR2024】探索多模态大型语言模型中视觉提示的可转移性

专知会员服务

21+阅读 · 2024年4月18日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

无人机与反无人机系统（书籍）

美陆军2026条令：安全与机动支援

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Arxiv

0+阅读 · 3月11日

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Arxiv

0+阅读 · 2月23日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Arxiv

0+阅读 · 2月13日

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Arxiv

0+阅读 · 2月10日

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Arxiv

0+阅读 · 2月4日

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Arxiv

0+阅读 · 2月3日

Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model

Arxiv

0+阅读 · 2月2日

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Arxiv

0+阅读 · 1月30日

相关基金

多波束卫星通信中基于压缩感知的预编码设计与干扰消除技术

国家自然科学基金

1+阅读 · 2017年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员