从感知到行动：空间人工智能体与世界模型

尽管大语言模型（LLMs）已成为智能体推理与规划的主流方法 [Brown et al., 2020, OpenAI, 2023, Touvron et al., 2023, Team and Google, 2023, Anthropic, 2024, Dubey et al., 2024, OpenAI, 2023, Anil et al., 2023, Chowdhery et al., 2022, Jiang et al., 2023, Abdin et al., 2024, Grattafiori et al., 2024, Devlin et al., 2019]，但其在符号领域的成功并不能直接转化为在物理世界中的表现。空间智能 (Spatial intelligence)——即感知 3D 结构、推理物体关系以及在物理约束下行动的能力——是具身智能体所必需的一种正交能力 [Chen et al., 2024a, Yang et al., 2025, Duan et al., 2022, Amin and Kiela, 2024, Cheng et al., 2025, Guo et al., 2024c, Liu et al., 2024c]。现有的综述研究多将智能体架构或空间领域孤立对待，尚未有研究提供一个统一的框架来连接这些互补的能力。本文旨在填补这一空白。通过对 2,000 多篇论文的深入综述，并引用了来自顶会/刊的 742 项研究工作，我们提出了一个统一的三轴分类法 (Unified three-axis taxonomy)，将智能体能力与跨尺度的空间任务相连接。至关重要的一点是，我们将空间锚定 (Spatial grounding)（对几何与物理的度量理解）与符号锚定 (Symbolic grounding)（图像与文本的关联）进行了明确区分，并主张仅凭感知并不能赋予智能体能动性 (Agency)。基于上述轴线，我们的分析揭示了三个关键发现： 1. 分层记忆系统（能力轴）对于长时程空间任务至关重要 [Packer et al., 2023, Banino et al., 2018, Xu et al., 2025, Zhang et al., 2025a, Blundell et al., 2016, Pritzel et al., 2017]。 1. GNN-LLM 集成（任务轴）是实现结构化空间推理的一种极具前景的方法 [Jin et al., 2023, Chen et al., 2024e,c, Chai et al., 2023, Shehzad et al., 2024, Fatemi et al., 2023, 2024]。 1. 世界模型（尺度轴）对于在从微观到宏观的空间尺度上实现安全部署不可或缺 [Hafner et al., 2023, Bruce et al., 2024b, Ha and Schmidhuber, 2018, Feng et al., 2025, Ding et al., 2024, Brooks et al., 2024, Hafner et al., 2020, 2021, Schrittwieser et al., 2020]。

最后，我们确定了六大挑战并概述了未来的研究方向，包括建立统一评估框架以标准化跨领域评估的需求。该分类法为整合碎片化的研究努力奠定了基础，并为机器人、自动驾驶和地理空间智能领域的下一代空间感知自主系统提供了赋能。

1 引言 (Introduction)

对通用人工智能（AGI）的追求正日益聚焦于构建能够在物理环境中感知、推理并行动的智能体 [Brooks, 1991, Russell and Norvig, 2010]。尽管大语言模型在符号推理与规划方面表现卓越 [Brown et al., 2020, OpenAI, 2023]，但它们在空间语境下却屡屡失效：导航智能体会幻听出不存在的路径，操纵规划器会提出物理上不可行的抓取方案，而具身系统对物体距离的判断则经常出现数量级偏差 [Chen et al., 2024a, Yang et al., 2025]。这些失败源于一个与多模态锚定问题迥异的根本性差距：虽然视觉语言模型可以实现图像与文本的关联（符号锚定，symbolic grounding），但空间智能需要对几何、物理及行动后果的度量理解（空间锚定，spatial grounding）。LLMs 缺乏后一种能力，其内部并不具备 3D 结构、物理动力学或几何约束模型。多模态基座模型加速了视觉理解 [Radford et al., 2021, Liu et al., 2023b, OpenAI, 2023]，然而单纯的感知并不等同于行动能力：一个能够详细描述场景的模型，可能仍无法在其中导航或操纵其中的物体。将感知转化为有效且可控的空间行动，仍是具身智能（Embodied AI）的关键瓶颈 [Ahn et al., 2022, Brohan et al., 2023, Kawaharazuka et al., 2025]。这一观察促使我们关注能够闭合“从感知到行动”回路的智能体系统。我们将智能体 AI (Agentic AI) 定义为通过自主决策表现出目标导向行为的系统，其特征包括构成我们分类法“能力轴（Capability axis）”的三大核心能力：用于经验积累的记忆 (memory)、规划 (planning)（包括作为持续改进之元级规划的自我反思），以及用于能力扩展的工具使用 (tool use) [Wang et al., 2024b, Xi et al., 2023, Yao et al., 2023b, Shinn et al., 2023b]。这些智能体通过感知、推理、行动和反馈的迭代循环运行 [Yao et al., 2023b, Shinn et al., 2023b]。与之互补，空间智能 (Spatial Intelligence) 涵盖了感知 3D 结构、推理物体关系、环境导航以及操纵物理实体的能力 [Chen et al., 2024a, Marr, 1982, Newcombe, 2010]。关键在于，空间任务跨越了构成我们分类法“尺度轴（Scale axis）”的三个层面：微观空间（厘米级操纵与抓取）、中观空间（米级房间导航与场景理解）以及宏观空间（公里级城市规划与地理空间分析） [Battaglia et al., 2018, Kipf and Welling, 2017]。这种尺度划分不仅是分类上的，更是因果上的：在一个尺度上训练的智能体在另一尺度部署时往往会失败，因为相关的特征、物理特性和动作空间存在质的差异。针对厘米精度优化的抓取策略无法规划城市级的路径，而交通预测模型则不具备接触力的表征。尺度失配是空间 AI 迁移失败的主要原因。这些领域的融合对于现实世界的 AI 应用至关重要，我们根据分类法的“任务轴（Task axis）”将其归纳如下： * 导航（中观至宏观尺度）：自动驾驶汽车必须感知动态环境并规划安全轨迹 [Hu et al., 2023b, Caesar et al., 2020, Waymo, 2023]；室内机器人需要通过复杂的建筑布局进行视觉语言导航 [Anderson et al., 2018c, Krantz et al., 2020]。 * 操纵（微观至中观尺度）：机器人助手在抓取、放置和工具使用时，需要理解物体供能性 (affordances) 和空间关系 [Brohan et al., 2023, Ahn et al., 2022, Team et al., 2024]。 * 宏观尺度推理：城市计算系统必须为交通预测和资源分配建模复杂的时空依赖关系 [Jin et al., 2023, Li et al., 2018]；地理空间智能平台必须分析全球尺度的卫星图像和地理数据 [Jakubik et al., 2024, Mai et al., 2023]。

尽管上述研究具有重要意义，现有的综述多将这些领域孤立对待，缺乏将智能体架构与空间需求相连接的统一框架。 本文贡献 (Contributions)：本综述主要贡献如下： 1. 统一三轴分类法：连接了智能体 AI 组件（记忆、规划、工具使用）与空间智能领域（导航、场景理解、操纵、地理空间分析），并跨越不同空间尺度（微观、中观、宏观）。该框架能清晰识别研究空白，指导新系统的架构决策，并为跨领域协作提供通用语境。 1. 全面文献分析：对从 2,000 多篇论文中筛选出的 742 篇引用文献进行了深入分析，揭示了显著的尺度不平衡：68% 的方法针对中观空间任务，而微观空间操纵和宏观空间地理推理尽管具有高度商业价值，但仍未得到充分探索。我们识别出 GNN-LLM 集成、视觉-语言-动作模型 (VLA) 以及基于世界模型的规划是填补这一差距的关键架构模式。 1. 现有综述详细对比（表 1）：量化了覆盖范围的差距，展示了本项目如何独特地桥接智能体 AI 与空间智能领域。 1. 前瞻性路线图：确定了代表结构性障碍而非渐进式改进的六大挑战：统一跨尺度表征、锚定长时程规划、安全保证、从仿真到现实 (sim-to-real) 的迁移、多智能体协作以及边缘侧部署。解决这些挑战需要智能体表征和空间推理方式的根本性进展。

成为VIP会员查看完整内容