大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型 (LVLMs) 赋予了系统对图像及视频进行复杂推理的能力，然而，其推理性能受限于一种被称为**“视觉 Token 主导性 (Visual Token Dominance)”的系统性效率屏障。该项开销源于高分辨率特征提取、二次方复杂度注意力缩放以及内存带宽限制之间的多机制交织作用 (Multiregime Interplay)。本文提出了一个基于推理生命周期 (Inference Lifecycle)** —— 即编码 (Encoding)、预填充 (Prefilling) 与解码 (Decoding) —— 构建的高效技术系统分类法。不同于以往聚焦于孤立优化的综述，我们通过分析端到端流水线 (End-to-end Pipeline)，揭示了上游决策如何诱导下游瓶颈，具体涵盖： 1. 计算受限 (Compute-bound) 的视觉编码过程； 1. 海量上下文下的密集预填充； 1. 带宽受限解码阶段的**“视觉存储墙 (Visual Memory Wall)”**。

通过将效率图谱解构为“信息密度塑造”、“长上下文注意力管理”以及“存储极限突破”三大维度，本研究深入分析了各项孤立优化方案如何协同作用，以权衡视觉保真度 (Visual Fidelity) 与系统效率。最后，结合初步的实证见解，本文概述了四大前沿方向： * 基于功能单元敏感性的混合压缩 (Hybrid Compression)； * 引入松弛验证机制的模态感知解码 (Modality-aware Decoding)； * 旨在实现流式连续性的渐进式状态管理 (Progressive State Management)； * 基于硬件-算法协同设计的阶段解耦式服务 (Stage-disaggregated Serving)。

大视觉语言模型 (LVLMs) (Wang et al., 2024d; An et al., 2025; Wang et al., 2025d) 已从单纯的研究成果演变为实现复杂多模态推理的基础设施。然而，随着这些模型逐渐扩展到处理细粒度视觉输入和长篇视频流，它们遭遇了一个系统性的效率障碍：视觉 Token 主导性 (Visual Token Dominance) (Yang et al., 2024b; Tao et al., 2025a; Liu et al., 2025b)。与纯文本输入不同，视觉数据产生的 Token 数量呈现数量级增长，这使得推理过程不仅受限于计算周期，更受到注意力机制二次方缩放以及**“视觉存储墙 (Visual Memory Wall)”的制约 (Wan et al., 2024b; Li et al., 2025d; Wang et al., 2025b)。本综述的核心论点是：LVLM 推理并非一种单一的负荷 (Monolithic Workload)，而是一个横跨三种不同硬件受限模式的动态流水线： 1. 编码阶段 (Encoding)：特别是视觉编码，受限于高分辨率特征提取带来的计算瓶颈 (Compute-bound)； 1. 预填充阶段 (Prefilling)：受制于大规模视觉上下文所引发的二次方复杂度； 1. 解码阶段 (Decoding)：由于静态且消耗带宽的键值 (KV) 缓存，触碰到了存储墙 (Memory Wall)**。

孤立地优化某一阶段往往只能将瓶颈转移至他处，而无法提升端到端的延迟。尽管研究热度激增，但现有文献仍显琐碎。先前的综述主要聚焦于孤立的垂直领域，例如 Token 压缩技术 (Shao et al., 2025b) 或针对特定模态的高效架构 (Zhou et al., 2024; Zhang et al., 2024a)。然而，这些工作忽略了推理流水线中的系统互联性 (Systemic Interconnectivity)。它们缺乏一种全局视角来审视上游决策（如编码器分辨率）如何决定下游瓶颈（如解码带宽），从而在理解端到端效率方面留下了空白。本综述通过提出一种统一的、基于阶段的 LVLM 高效推理分类法来填补这一空白。我们将效率格局解耦为三个关键维度：塑造信息密度（编码）、管理长上下文注意力（预填充）以及突破内存带宽限制（解码）。该框架为评估各项孤立优化方案的协同效应提供了一个结构化视角，旨在帮助研究人员在视觉保真度 (Visual Fidelity) 与系统效率之间寻求最佳平衡。