大视觉语言模型 (LVLMs) 赋予了系统对图像及视频进行复杂推理的能力,然而,其推理性能受限于一种被称为**“视觉 Token 主导性 (Visual Token Dominance)”的系统性效率屏障。该项开销源于高分辨率特征提取、二次方复杂度注意力缩放以及内存带宽限制之间的多机制交织作用 (Multiregime Interplay)。 本文提出了一个基于推理生命周期 (Inference Lifecycle)** —— 即编码 (Encoding)、预填充 (Prefilling) 与解码 (Decoding) —— 构建的高效技术系统分类法。不同于以往聚焦于孤立优化的综述,我们通过分析端到端流水线 (End-to-end Pipeline),揭示了上游决策如何诱导下游瓶颈,具体涵盖: 1. 计算受限 (Compute-bound) 的视觉编码过程; 1. 海量上下文下的密集预填充; 1. 带宽受限解码阶段的**“视觉存储墙 (Visual Memory Wall)”**。

通过将效率图谱解构为“信息密度塑造”、“长上下文注意力管理”以及“存储极限突破”三大维度,本研究深入分析了各项孤立优化方案如何协同作用,以权衡视觉保真度 (Visual Fidelity) 与系统效率。最后,结合初步的实证见解,本文概述了四大前沿方向: * 基于功能单元敏感性的混合压缩 (Hybrid Compression); * 引入松弛验证机制的模态感知解码 (Modality-aware Decoding); * 旨在实现流式连续性的渐进式状态管理 (Progressive State Management); * 基于硬件-算法协同设计的阶段解耦式服务 (Stage-disaggregated Serving)

大视觉语言模型 (LVLMs) (Wang et al., 2024d; An et al., 2025; Wang et al., 2025d) 已从单纯的研究成果演变为实现复杂多模态推理的基础设施。然而,随着这些模型逐渐扩展到处理细粒度视觉输入和长篇视频流,它们遭遇了一个系统性的效率障碍:视觉 Token 主导性 (Visual Token Dominance) (Yang et al., 2024b; Tao et al., 2025a; Liu et al., 2025b)。与纯文本输入不同,视觉数据产生的 Token 数量呈现数量级增长,这使得推理过程不仅受限于计算周期,更受到注意力机制二次方缩放以及**“视觉存储墙 (Visual Memory Wall)”的制约 (Wan et al., 2024b; Li et al., 2025d; Wang et al., 2025b)。 本综述的核心论点是:LVLM 推理并非一种单一的负荷 (Monolithic Workload),而是一个横跨三种不同硬件受限模式的动态流水线: 1. 编码阶段 (Encoding):特别是视觉编码,受限于高分辨率特征提取带来的计算瓶颈 (Compute-bound); 1. 预填充阶段 (Prefilling):受制于大规模视觉上下文所引发的二次方复杂度; 1. 解码阶段 (Decoding):由于静态且消耗带宽的键值 (KV) 缓存,触碰到了存储墙 (Memory Wall)**。

孤立地优化某一阶段往往只能将瓶颈转移至他处,而无法提升端到端的延迟。 尽管研究热度激增,但现有文献仍显琐碎。先前的综述主要聚焦于孤立的垂直领域,例如 Token 压缩技术 (Shao et al., 2025b) 或针对特定模态的高效架构 (Zhou et al., 2024; Zhang et al., 2024a)。然而,这些工作忽略了推理流水线中的系统互联性 (Systemic Interconnectivity)。它们缺乏一种全局视角来审视上游决策(如编码器分辨率)如何决定下游瓶颈(如解码带宽),从而在理解端到端效率方面留下了空白。 本综述通过提出一种统一的、基于阶段的 LVLM 高效推理分类法来填补这一空白。我们将效率格局解耦为三个关键维度:塑造信息密度(编码)、管理长上下文注意力(预填充)以及突破内存带宽限制(解码)。该框架为评估各项孤立优化方案的协同效应提供了一个结构化视角,旨在帮助研究人员在视觉保真度 (Visual Fidelity) 与系统效率之间寻求最佳平衡。

成为VIP会员查看完整内容
0

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
视觉语言大模型的幻觉综述:成因、评估与治理
专知会员服务
18+阅读 · 2025年6月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
【学科发展报告】计算机视觉
中国自动化学会
43+阅读 · 2018年10月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
1+阅读 · 今天14:52
美国-以色列-伊朗战争:是否会动用地面部队?
专知会员服务
0+阅读 · 今天14:27
美国协同作战飞机项目新型无人机发动机
专知会员服务
0+阅读 · 今天13:59
无人机在美以伊战争中的关键启示(印度视角)
专知会员服务
1+阅读 · 今天7:33
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
8+阅读 · 4月10日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
视觉语言大模型的幻觉综述:成因、评估与治理
专知会员服务
18+阅读 · 2025年6月21日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
33+阅读 · 2024年7月11日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员