潜空间综述：基础、演化、机制、能力与展望

潜空间（Latent space）正迅速演变为语言模型的一种原生基质（Native substrate）。尽管目前的系统通常仍被理解为通过显式的 Token 级生成进行运作，但越来越多的研究表明，许多关键的内部过程在连续潜空间中比在人类可读的语言迹象（Verbal traces）中能更自然地执行。这种范式转变源于显式空间计算的结构性限制，包括语言冗余、离散化瓶颈、序列效率低下以及语义损失。因此，潜空间研究已从早期的潜空间推理扩展到涵盖规划、建模、感知、存储、协作及具身智能（Embodiment）的更广泛领域。然而，现有文献在机制、模态和任务方面仍显琐碎，缺乏关于潜空间如何定义、分类和研究的统一视角。本综述旨在为语言模型中的潜空间研究提供一个统一且前沿的全景视图。我们将本综述组织为五个连续的维度：理论基础（Foundation）、演进历程（Evolution）、作用机制（Mechanism）、能力表现（Ability）及研究展望（Outlook）。首先，我们界定了潜空间的范畴，将其与显式或语言空间，以及生成式视觉模型中常见的潜空间进行了区分。随后，我们追踪了该领域从早期探索到当前大规模扩张的演进过程。为了梳理技术版图，我们通过机制与能力这两个互补的视角对现有工作进行了考察：在机制维度，我们识别了架构、表示、计算和优化四大发展主线；在能力维度，我们展示了潜空间如何支持涵盖推理、规划、建模、感知、存储、协作和具身智能的广泛能力谱系。在总结现有成果之外，我们还讨论了关键的开放性挑战，并概述了未来研究中具有前景的方向。我们希望本综述不仅能作为现有工作的参考，也能为将潜空间理解为下一代智能的通用计算与系统范式奠定基础。

1 引言 (Introduction)

基于语言的模型——包括大语言模型（LLMs）、视觉-语言模型（VLMs）、视觉-语言-动作模型（VLAs）以及基于语言骨干构建的智能体系统——近期的进展通常仍被理解为通过显式的 Token 级生成（Token-level generation）实现的，即其输入、输出乃至中间推理过程均以人类可读的形式表达 [202, 219, 254]。然而，这种以 Token 为中心的架构框架正日益显现其局限性 [11, 58, 186]。由于此类模型中的计算本质上是通过连续激活（Continuous activations）展开的，潜空间正越来越多地被重新构想，它不再仅仅是一个隐藏的实现细节，而是一种机器原生的基质（Machine-native substrate），承载着诸如推理 [58, 243, 295]、感知 [11, 137]、存储 [264, 273]、通信 [290, 300] 和动作 [69, 142] 等功能。这一范式转变部分源于显式空间的结构性限制，包括其冗余性、离散化瓶颈、序列解码成本以及在复杂、多模态或长程任务设置中细粒度信息的潜在损失。相比之下，潜空间计算提供了一种更具连续性、紧凑性且表现力更强的介质，能够支持更高保真度的表示和更灵活的计算分配。因此，研究已远远超出了最初将潜空间仅视为“潜推理（Latent reasoning）”的范畴。最初尝试将思维链（Chain-of-thought）内化为连续状态的努力，已迅速演变为一个更广泛的系统范式（Systems paradigm），跨越了新的模态、新的交互设置和新的设计选择 [27, 99, 297]。然而，这种增长也导致文献在至少三个维度上呈现碎片化：按应用对象划分（如潜推理、视觉理解、具身动作）；按机制划分（如架构设计、表示选择、计算模式、优化策略）；以及按场景划分（涵盖文本、视觉、多智能体系统和具身环境）。现有的综述主要侧重于将潜推理或隐式推理视为一种特定于推理的现象。目前仍缺乏一个统一的视角，将潜空间视为跨模态、跨范式、跨机制和跨能力的通用计算与系统范式。为了填补这一空白，本综述围绕五个递进的问题展开（如图 2 所示），从概念基础延伸至未来展望：什么是潜空间？它是如何发展的？它是如何运作的？它能实现什么？下一步是什么？这些问题定义了本文的宏观叙事结构：**理论基础（Foundation，第 2 节）**界定了潜空间的概念，并阐明了其与显式空间以及生成式视觉模型中潜空间的关系；**演进历程（Evolution，第 3 节）**追踪了该领域如何从原型探索走向爆发式增长；**作用机制（Mechanism，第 4 节）**解释了潜空间是如何实例化和操作化的；**能力表现（Ability，第 5 节）**考察了潜空间计算在下游能力中的赋能作用；**研究展望（Outlook，第 6 节）**综合了开放性挑战与未来方向。这种五阶段叙事旨在保持清晰的逻辑线索，同时通过共享原则和能力成果（而非单纯的任务标签）来对比不同的方法。

在这种循序渐进的叙事中，我们的技术综述锚定在图 1 所示的二维分类法上。第一维度是机制（Mechanism），关注潜空间是如何构建和使用的，涵盖四个主要主线：架构、表示、计算和优化。第二维度是能力（Ability），关注潜空间赋能了什么，涵盖七个主要能力领域：推理、规划、建模、感知、存储、协作和具身智能。这种设计使我们能够保持清晰的综述主线，同时通过共同的设计原则和能力成果来对比各种方法。

贡献 (Contributions)

我们明确了语言模型中潜空间的概念范畴，将其与显式或语言空间，以及生成式视觉模型中常用的潜空间进行了区分。 * 我们对潜空间如何从早期的潜推理演变为更广泛的多模态和系统级研究范式进行了统一综述。 * 我们引入了横跨“机制”与“能力”的二维分类法，为组织碎片化的方法和应用提供了一个通用框架。 * 我们提供了全面的资源汇编，包括示意图、结构化表格、访问链接和代码库，以促进进一步的研究和社区参与。