摘要——具身智能中的语义信息本质上具有多源性和多阶段性,这使得在现实环境中充分利用语义来实现稳定的“感知-动作”环路(perception-to-action loops)极具挑战。早期研究多将人工工程与深度神经网络相结合,在特定的语义相关具身任务中取得了显著进展。然而,随着具身智能体面临日益复杂的环境和开放式任务,对更具泛化性且鲁棒的语义处理能力的需求已变得至关重要。基础模型(Foundation Models, FMs)的最新进展凭借其跨域泛化能力和丰富的语义先验(semantic priors)解决了这一挑战,并重塑了具身智能的研究格局。在本综述中,我们提出了“语义生命周期”(Semantic Lifecycle)这一统一框架,用于表征基础模型驱动下具身智能内部语义知识的演进。区别于将语义处理视为孤立模块或脱节任务的传统范式,本文框架提供了一个宏观视角,旨在捕捉语义知识的持续流动与维护。在这一具身语义生命周期的指导下,我们进一步分析并对比了获取、表征和存储这三个关键阶段的最新进展。最后,我们总结了当前面临的挑战,并概述了未来研究中具有前景的方向。 索引词——具身智能,基础模型,具身语义,语义地图构建(Semantic Mapping),大语言模型。

引言

具身人工智能(Embodied AI)旨在开发能够感知、理解物理环境并与之交互,从而完成复杂现实任务的智能体 [1]。这一目标的核心在于语义信息(semantic information)——即连接原始感官感知与有目的行动的结构化知识。与传统的视觉识别任务不同,具身场景要求语义具备行动相关性(action-relevant)和环境落地性(environment-grounded) [2]。例如,家用机器人不仅要识别出杯子,还必须理解其空间关系、可抓取性(graspability)以及在冲咖啡等任务中的程序化角色。这种操作上的必要性将语义从简单的对象标签提升为包含对象、属性、空间关系、可负担性(affordances,或译为动作启发性)及程序化层级的结构化知识,这些知识对于规划与控制至关重要 [3]。 然而,在具身 AI 系统中充分利用语义信息仍然是一个巨大的挑战,这主要归因于其固有的多源性和多阶段特性。首先,具身智能体必须整合来自异构源的知识,包括视觉、语言、本体感知和交互轨迹,同时协调第一人称视角(egocentric)观测与第三人称/世界坐标系(allocentric)世界模型之间的视点差异 [1], [4]。其次,语义生命周期复杂且相互依赖,跨越三个关键阶段:通过以场景为中心或以智能体为中心的感知进行获取(acquisition) [5]–[8];跨模态和参考系的表征(representation)与对齐 [9], [10];以及随着智能体经验积累进行增量更新的持久化存储(storage) [11], [12]。每个阶段都有独特的计算和架构要求,但各阶段之间保持着深度的耦合。这些复杂性在历史上阻碍了能够维持稳定“感知-动作”环路的统一框架的发展。 以往的方法通过计算机视觉、自然语言处理和机器人技术的任务特定组合来解决该问题的各个方面。然而,它们通常只处理语义处理流水线中的特定子问题,侧重于特定的语义类别、模态或处理阶段,这限制了它们在全频谱具身场景中的适用性。随着具身环境变得愈发复杂、任务愈发多样,建立一个能够桥接这些传统独立研究方向的统一框架和视角的需求日益凸显,这促使我们需要对具身 AI 中从获取、表征到存储的语义生命周期进行整体性研究。 最近,基础模型(foundation models) [13] 从根本上改变了这一现状,利用涵盖整个语义生命周期的泛化能力取代了特定任务的流水线。在获取阶段,基础模型实现了开放词汇表(open-vocabulary)的目标检测和语义分割 [14], [15],能够将任意自然语言查询落地到视觉流中,而无需预定义的分类法。在语义表征方面,视觉-语言对齐方法 [16]–[18] 建立了共享的嵌入空间,使得异构观测可以在不同模态间进行联合编码和比较。在存储阶段,语言感知的 3D 地图构建方法 [19], [20] 构建了持久的语义场景表征,支持基于自然语言的空间查询和增量世界建模。这些进展促使我们系统地考察如何跨整个语义生命周期编排基础模型,将孤立的能力转化为协同的具身智能框架。 在本综述中,我们提出了语义生命周期(semantic lifecycle),将其作为具身 AI 中语义信息处理的统一框架,首次全面探讨了基础模型如何为整个流水线中此前碎片化的任务提供统一解决方案。我们围绕构成语义生命周期的三个基本阶段组织分析: 1. 获取(Acquisition):智能体通过以场景为中心或以智能体为中心的感知,从多源感官流中提取语义知识; 1. 表征(Representation):将异构语义观测在不同模态和参考系间进行编码与对齐; 1. 存储(Storage):将语义知识整合到持久的、可查询的结构中,以支持长程推理(long-horizon reasoning)和持续学习。

对于每个阶段,我们识别了关键挑战,评述了代表性方法,并分析了基础模型如何在引入新能力的同时解决长期存在的局限性。本综述的贡献如下: * 作为统一框架的语义生命周期:我们首次引入了具身 AI 语义信息处理的“生命周期中心”视角,系统地围绕三个基本阶段(获取、表征和存储)组织文献,构成从原始感知到可行动语义知识的完整流水线。 * 以基础模型为中心的分析:系统考察了基础模型如何推进具身 AI 语义生命周期的每个阶段,识别了在不同具身场景中实现鲁棒语义处理的关键架构模式、设计原则和集成策略。 * 开放挑战与未来方向:识别并分析了涵盖端到端评估、生命周期感知语义存储以及长程一致性等关键开放问题,为下一代具身智能体勾勒了研究路线图。

本综述的其余部分安排如下:第二节全面概述语义生命周期框架,并确立关键概念和术语;第三至五节构成分析核心,系统探讨基础模型如何变革语义获取、表征和存储;第六节讨论关键挑战和具有前景的未来方向;第七节总结全文。

成为VIP会员查看完整内容
1

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
42+阅读 · 2025年8月16日
基于脉冲神经网络的边缘智能
专知会员服务
20+阅读 · 2025年7月23日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
33+阅读 · 2025年3月7日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
39+阅读 · 2024年8月9日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
42+阅读 · 2025年8月16日
基于脉冲神经网络的边缘智能
专知会员服务
20+阅读 · 2025年7月23日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
33+阅读 · 2025年3月7日
视觉中的生成物理人工智能:综述
专知会员服务
36+阅读 · 2025年1月26日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
39+阅读 · 2024年8月9日
相关资讯
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员