大视觉语言模型 (LVLMs) 赋予了系统对图像及视频进行复杂推理的能力,然而,其推理性能受限于一种被称为**“视觉 Token 主导性 (Visual Token Dominance)”的系统性效率屏障。该项开销源于高分辨率特征提取、二次方复杂度注意力缩放以及内存带宽限制之间的多机制交织作用 (Multiregime Interplay)。 本文提出了一个基于推理生命周期 (Inference Lifecycle)** —— 即编码 (Encoding)、预填充 (Prefilling) 与解码 (Decoding) —— 构建的高效技术系统分类法。不同于以往聚焦于孤立优化的综述,我们通过分析端到端流水线 (End-to-end Pipeline),揭示了上游决策如何诱导下游瓶颈,具体涵盖: 1. 计算受限 (Compute-bound) 的视觉编码过程; 1. 海量上下文下的密集预填充; 1. 带宽受限解码阶段的**“视觉存储墙 (Visual Memory Wall)”**。
通过将效率图谱解构为“信息密度塑造”、“长上下文注意力管理”以及“存储极限突破”三大维度,本研究深入分析了各项孤立优化方案如何协同作用,以权衡视觉保真度 (Visual Fidelity) 与系统效率。最后,结合初步的实证见解,本文概述了四大前沿方向: * 基于功能单元敏感性的混合压缩 (Hybrid Compression); * 引入松弛验证机制的模态感知解码 (Modality-aware Decoding); * 旨在实现流式连续性的渐进式状态管理 (Progressive State Management); * 基于硬件-算法协同设计的阶段解耦式服务 (Stage-disaggregated Serving)。
大视觉语言模型 (LVLMs) (Wang et al., 2024d; An et al., 2025; Wang et al., 2025d) 已从单纯的研究成果演变为实现复杂多模态推理的基础设施。然而,随着这些模型逐渐扩展到处理细粒度视觉输入和长篇视频流,它们遭遇了一个系统性的效率障碍:视觉 Token 主导性 (Visual Token Dominance) (Yang et al., 2024b; Tao et al., 2025a; Liu et al., 2025b)。与纯文本输入不同,视觉数据产生的 Token 数量呈现数量级增长,这使得推理过程不仅受限于计算周期,更受到注意力机制二次方缩放以及**“视觉存储墙 (Visual Memory Wall)”的制约 (Wan et al., 2024b; Li et al., 2025d; Wang et al., 2025b)。 本综述的核心论点是:LVLM 推理并非一种单一的负荷 (Monolithic Workload),而是一个横跨三种不同硬件受限模式的动态流水线: 1. 编码阶段 (Encoding):特别是视觉编码,受限于高分辨率特征提取带来的计算瓶颈 (Compute-bound); 1. 预填充阶段 (Prefilling):受制于大规模视觉上下文所引发的二次方复杂度; 1. 解码阶段 (Decoding):由于静态且消耗带宽的键值 (KV) 缓存,触碰到了存储墙 (Memory Wall)**。
孤立地优化某一阶段往往只能将瓶颈转移至他处,而无法提升端到端的延迟。 尽管研究热度激增,但现有文献仍显琐碎。先前的综述主要聚焦于孤立的垂直领域,例如 Token 压缩技术 (Shao et al., 2025b) 或针对特定模态的高效架构 (Zhou et al., 2024; Zhang et al., 2024a)。然而,这些工作忽略了推理流水线中的系统互联性 (Systemic Interconnectivity)。它们缺乏一种全局视角来审视上游决策(如编码器分辨率)如何决定下游瓶颈(如解码带宽),从而在理解端到端效率方面留下了空白。 本综述通过提出一种统一的、基于阶段的 LVLM 高效推理分类法来填补这一空白。我们将效率格局解耦为三个关键维度:塑造信息密度(编码)、管理长上下文注意力(预填充)以及突破内存带宽限制(解码)。该框架为评估各项孤立优化方案的协同效应提供了一个结构化视角,旨在帮助研究人员在视觉保真度 (Visual Fidelity) 与系统效率之间寻求最佳平衡。