论文题目:3D Scene Graphs: Open Challenges and Future Directions 论文链接:https://arxiv.org/abs/2606.19383 论文主页:https://3dscenegraphs.com 论文机构:University of Stuttgart、Sapienza University of Rome、Google、MIT、University of Freiburg、University of Montreal、Mila、TU Munich 等 论文类型:Annual Review of Control, Robotics, and Autonomous Systems Volume 10 邀稿综述
导读
3D Scene Graph(3DSG)正在成为空间智能、机器人和具身 AI 中非常重要的一类表示。它试图把低层几何地图与高层语义、对象关系、层次结构和可执行任务连接起来:既知道“物体在哪里”,也知道“物体是什么、与谁相邻、属于哪个房间、能被如何使用、对任务有什么意义”。 这篇综述系统梳理了 2019-2026 年 3DSG 研究的发展,重点不是简单罗列论文,而是围绕几个关键问题展开:什么是 3DSG?它由哪些节点、边、特征、层次和动态结构组成?3DSG 如何从传感器数据构建?它如何服务场景理解、导航规划、操作和新兴空间 AI 应用?现有评测为何仍然碎片化?未来要怎样走向真实世界部署? 文章的核心判断很明确:3DSG 的潜力不只是“给 3D 地图加语义标签”,而是作为物理 AI 的结构化世界表示,连接几何、语义、关系、语言、行动和长期记忆。但要走到这一步,领域还需要统一定义、可比较构建流程、可复用 benchmark、动态一致性建模,以及面向真实任务的评价方式。
自主智能体在非结构化真实环境中行动,需要同时具备几何精度和语义理解。传统 SLAM、点云、网格和地图表示擅长度量几何,却难以支持高层推理、长期记忆和交互任务;纯语言或隐式表示拥有丰富语义,却缺少物理空间 grounding。3D Scene Graph 正是为了连接这两端而出现。 3DSG 将场景表示为图:节点可以是对象、房间、区域、楼层或环境,边可以是空间关系、语义关系、层次关系、动作关系或时间关系,节点和边还可以带有几何、语义、多模态 embedding 或文本描述。这样的表示紧凑、可解释、可查询,也天然适合连接机器人任务、视觉理解和语言推理。
论文指出,3DSG 兴起背后有三股力量:第一,SLAM 与 3D 重建让大规模几何地图更可靠;第二,目标检测、实例分割和基础模型提升了语义抽取能力;第三,LLM/VLM 的发展让结构化世界表示成为语言、感知和行动之间的重要接口。 但领域仍然碎片化。不同社区对 3DSG 的定义、构建流程、评测协议和应用目标并不一致。本文因此围绕四个问题组织综述:什么是 3DSG;如何构建 3DSG;如何使用和评价 3DSG;开放挑战和未来方向是什么。
已有综述分别从 2D scene graph、SLAM、3D 场景表示、LLM for 3D perception、world models 等角度讨论过相关问题,但多数没有把 3DSG 的结构、构建、应用、评测和现实限制作为一个统一对象来分析。 早期 scene graph 综述主要关注 2D 图像理解,难以覆盖 3D 环境中的部分可观测、度量 grounding 和大规模空间扩展问题。SLAM 和场景表示综述通常把 3DSG 看作几何地图的结构化扩展,强调物体/关系抽象与度量地图的融合,却较少讨论语义关系、开放词表、任务规划和交互能力。LLM for 3D reasoning 综述则强调 3DSG 作为可解析结构对语言推理的价值,但不是专门分析 3DSG 领域本身。 本文的范围更聚焦:它希望统一 3DSG 的形式化定义,梳理节点、边、层次、动态和功能性建模选择,讨论从原始观测构建 3DSG 的常见方法,并总结场景理解、导航规划、操作和新兴应用中的评价方式。作者还提供了配套网站 3dscenegraphs.com,用于持续整理和检索 3DSG 论文。
论文将 3DSG 形式化为一个包含节点、边、几何 grounding、节点特征、边特征以及可选层次标签的图结构。节点代表 3D 空间中被 grounding 的实体或概念,可以是对象、对象部件、房间、楼层或区域;边表示节点之间的关系,可以是 directed、undirected,也可以允许同一节点对之间存在多条关系。 节点特征通常分为几何属性和语义属性。几何属性包括中心点、包围盒、形状等;语义属性包括类别、材质、颜色、多模态 embedding 或文本描述。边特征可以描述空间关系、语义关系、功能关系、可达性、包含关系或动作效果。
论文重点讨论三类建模扩展。 第一是层次结构。室内环境中常见层次包括 environment、floor、room、place、object;户外环境则更难,因为缺少明确房间边界,常需要按道路、交叉口、区域、可通行空间或功能区域组织。开放挑战在于:抽象层次到底应由几何边界定义,还是由任务、功能或拓扑结构定义?如何自动推断对不同任务都有意义的抽象层? 第二是动态建模。真实场景不是静态的:物体会移动,门会开关,人会行动,机器人也会改变环境。3DSG 需要表示时间变化、数据关联、不确定性和未来状态。当前多数方法更擅长追踪对象轨迹,较少建模关系变化、高层空间抽象的动态演化,以及过去、现在、未来之间的一致性。 第三是功能性与可行动性。一个对象不仅有类别和位置,还可能有 affordance、可交互状态和动作效果。例如杯子可抓取,门可打开,椅子可坐,开关可改变灯光状态。将功能性写入 3DSG,是它从描述性场景表示走向任务级空间智能的关键。
构建 3DSG 通常要从 RGB-D、点云、mesh、SLAM 轨迹、实例分割、2D/3D 检测、语言描述或多模态模型输出中抽取图结构。论文将构建问题概括为五个维度:processing、nodes、edges、priors、consistency。
在 processing 维度上,方法可分为 online 和 offline。Online 方法在机器人运行时增量更新图,适合 SLAM、导航和交互;offline 方法先融合场景,再批量构图,通常更适合高质量语义理解和离线分析。 在 node 维度上,核心问题是“什么应该成为节点”。最常见的是对象节点,但还可以包括房间、地点、功能区域、开放词表实体、语言查询相关区域,甚至 agent 和可交互 affordance。随着基础模型发展,开放词表 3DSG 正在成为重要方向:系统不再局限固定类别表,而是利用 VLM/LLM 生成对象候选、描述和语义 embedding。 在 edge 维度上,边可以表示空间邻接、支撑、包含、相对位置、语义关系、层次父子关系或动作关系。关系推断可通过几何规则、学习模型、语言模型或多模态推理完成。当前挑战是边的类型和语义缺乏统一标准,不同论文中的 “relation” 可能含义差别很大。 在 priors 维度上,先验可以来自任务、知识库、LLM/MLLM、物理约束或常识。例如 LLM 可以帮助推断“杯子通常在桌上”“椅子可坐”“厨房中可能有柜台区域”,但也可能引入幻觉或与几何观测不一致的假设。 在 consistency 维度上,3DSG 必须在多视角、多时间、多传感器和多抽象层之间保持一致。对象的跟踪、合并、遗忘、动态更新和不确定性传播,都会影响图是否可靠。论文特别强调,当前很多方法把一致性主要当作几何对齐问题,而较少处理语义一致性、关系一致性和长期记忆中的边界情况。
3DSG 的价值不仅在于能否准确表示场景,还在于它能否支持下游任务。论文从 intrinsic evaluation、scene understanding、planning and navigation、manipulation、emerging applications 几类应用来梳理。
Intrinsic evaluation 关注图自身质量,例如节点和边是否正确、对象实例是否被正确分割、语义标签是否准确、关系预测是否合理。常见指标包括 precision、recall、F1、mIoU、Chamfer distance、3D reconstruction metrics、relation recall 等。但对非对象节点和抽象关系,ground truth 往往很难定义,导致评测协议不统一。 Scene understanding 是 3DSG 的重要动机。3DSG 可支持跨模态实体 grounding、语言查询、关系推理和多跳问答。例如用户问“红色椅子旁边的窗户在哪里”,系统可以在图的对象、房间、关系和属性之间进行结构化搜索。近年方法还将 3DSG 序列化为 JSON 或图结构文本,让 LLM 在节点和边上推理。但当图变大后,直接序列化会迅速超出上下文窗口,因此需要检索、压缩、子图选择和图 RAG。 Planning and navigation 中,3DSG 可将高层语言目标 grounding 到对象、房间或可通行区域,再转化为路径规划或任务规划问题。它既可以帮助符号规划器生成 PDDL/LTL 目标,也可以帮助机器人利用语义拓扑图、可达性图和层次结构进行导航。未来挑战包括动态场景、场景 fidelity、任务规划与底层运动规划的更紧耦合。 Manipulation 中,3DSG 能为抓取、交互、对象搜索和长期任务提供结构化上下文。对象之间的支撑关系、遮挡关系、可操作状态和 affordance 对操作很关键。未来方向包括把长期记忆、可验证动作效果和 VLA 模型结合起来,让机器人不只“看到对象”,还理解对象如何被使用。 Emerging applications 包括开放词表空间问答、面向具身智能的长期记忆、数字孪生、交互式场景编辑、预测未来对象状态,以及作为物理 AI world model 的显式结构接口。这些方向把 3DSG 从传统 robotics map 推向更广义的 spatial AI representation。 论文也指出评测是当前最大短板之一。不同任务使用不同数据集和指标,很多 benchmark 只评估对象层或场景理解局部能力,很少系统评估层次、关系、动态、一致性、长期可维护性和任务成功率之间的关系。
论文总结认为,3DSG 已经从早期的结构化场景表示,发展为连接几何、语义、关系、语言和行动的核心候选表示。它可以服务于场景理解、导航规划、操作和新兴空间智能应用,也可能成为未来 physical AI 和 embodied AI 的显式世界模型接口。 但领域仍面临多重挑战。 第一,表示层面仍缺少统一标准。节点、边、层次、动态和功能性如何定义,不同系统差异很大。第二,构建流程尚不稳定,尤其是开放词表识别、多视角一致性、动态对象、长期更新和语义幻觉控制。第三,应用层面还没有充分证明 3DSG 在复杂真实任务中优于更简单表示。第四,评测层面缺少跨任务、跨数据集、跨层次的 benchmark,导致方法难以公平比较。 未来 3DSG 的关键方向,是从静态场景描述走向任务驱动、动态一致、可验证、开放词表、可与语言模型交互的结构化世界表示。对机器人和空间智能而言,3DSG 的重要性可能不在于它是否成为唯一表示,而在于它为几何地图、语义理解、语言推理和行动规划提供了一个可解释、可查询、可组合的中间层。
论文作者团队由多家机构共同组成,包括 University of Stuttgart、Sapienza University of Rome、Google、MIT、University of Freiburg、University of Montreal、Mila 和 TU Munich。作者分工覆盖综述结构设计、论文整理、图表制作、网站建设、章节撰写和技术反馈等。公众号正文不展开逐项作者贡献,但保留这一节以对齐原文结构。
原文最后致谢了支持该综述和相关研究工作的机构与项目。更重要的是,作者提供了持续更新的 3D Scene Graphs Archive 网站,帮助社区检索和扩展 3DSG 论文集合,这对一个快速增长但仍然碎片化的领域非常有价值。