面向具身智能与机器人仿真的三维生成：综述

摘要——具身 AI 与机器人系统日益依赖可扩展、多样且具有物理基础的三维内容，以支持基于仿真的训练与真实世界部署。尽管三维生成建模发展迅速，但具身应用提出的要求远超视觉真实感：生成对象必须具备运动学结构和材料属性，场景必须支持交互与任务执行，生成内容还必须弥合仿真与现实之间的差距。本文首次对面向具身 AI 的三维生成进行综述，并围绕三维生成在具身系统中扮演的三类角色组织相关文献：在数据生成器方面，三维生成产生可用于仿真的对象与资产，包括关节化、具有物理基础和可变形的内容，以支持下游交互；在仿真环境方面，三维生成构建交互式、面向任务的世界，涵盖结构感知、可控以及智能体式场景生成；在仿真到现实桥接方面，三维生成支持数字孪生重建、数据增强和合成示范，用于下游机器人学习与真实世界迁移。我们还指出，该领域正从追求视觉真实感转向关注交互就绪性，并识别出若干主要瓶颈，包括物理标注有限、几何质量与物理有效性之间的差距、评价体系碎片化，以及持续存在的仿真到现实鸿沟；这些问题必须得到解决，三维生成才能成为具身智能可靠的基础。项目主页见：

https://3dgen4robot.github.io。 索引词——三维生成、具身 AI、机器人仿真、场景生成、仿真到现实迁移。

1 引言

具身 AI 与机器人系统正越来越多地被期望能够在开放式物理环境中进行感知、推理与行动 [1], [2]。近年来，大规模策略学习 [3], [4]、视觉-语言-动作模型（Vision-Language-Action, VLA）[5]–[9] 以及高保真仿真 [10]–[12] 的快速发展，显著扩展了这些系统的能力边界。然而，这些系统的性能在根本上仍受到可扩展、多样化且具备交互就绪性（interaction-ready）的三维资产与环境可用性的限制。

与传统三维生成通常优先关注外观真实性或静态几何结构不同，具身应用要求生成的资产能够被操控、仿真并跨任务迁移。一个橱柜之所以有价值，不仅因为它看起来逼真，更因为它的柜门能够围绕合理的关节旋转 [13], [14]；一块布料之所以重要，不仅因为它具有正确的形状，更因为它在接触时能够发生形变 [15], [16]；一个场景之所以有效，不仅因为它在视觉上连贯，更因为它能够在物理约束下支持导航、交互和任务执行 [17]。这些需求使得面向具身 AI 的三维生成成为一个远比单纯视觉内容合成更广泛、更复杂的问题。这一转变推动了三维生成建模与面向机器人仿真的快速融合。一方面，扩散模型（diffusion models）、重建流水线（reconstruction pipelines）、大语言模型（LLMs）以及多模态基础模型（multimodal foundation models）的进展，大幅提升了从文本、图像或示范等稀疏输入中生成几何、纹理、结构和语义的能力 [18]–[20]。另一方面，机器人仿真对生成结果提出了额外要求，包括运动学结构、物理参数、材料属性、与可供性（affordance）相关的语义，以及与执行格式（如 URDF、MJCF 和仿真器原生表示）的兼容性。

具体而言，诸如 URDF-Anything [14] 和 NVIDIA PhysX-3D [21] 等方法表明，有效的生成资产不仅必须编码视觉外观，还必须编码关节配置、质量分布和摩擦系数，以支持物理仿真。因此，核心问题已经不再只是“如何生成合理的三维内容”，而是“如何生成**面向仿真、可直接执行（simulation-ready）**的三维内容”，以支持具身感知、规划、控制以及仿真到现实迁移（sim-to-real transfer）。

关于这一主题的现有研究正在快速增长，但仍然分散在多个研究社区中，包括计算机视觉、计算机图形学、机器人学、具身 AI 和仿真系统。现有工作通常只研究问题的某一层面：例如仅关注对象生成而忽略下游可执行性 [22], [23]，仅关注场景生成而忽略交互语义 [24]，或者仅关注仿真平台而缺乏生成可扩展性 [10]。与此同时，最新方法正越来越多地模糊这些边界，将资产生成、场景合成、仿真器反馈和智能体式规划整合到统一流水线中 [25], [26]。这使得我们有必要从具身使用的视角重新审视该领域，关注的不仅是“能生成什么”，还包括生成结果是否可控、可交互、具有物理基础，并且对机器人仿真具有实际价值。在本综述中，我们对面向具身 AI 与机器人仿真的三维生成进行了系统性梳理。不同于按照生成模型骨干架构（backbone）来组织文献，我们围绕一个核心问题展开： 三维生成在具身 AI 中扮演什么角色？

基于这一视角，我们提出了三个核心部分，并以此构建本文的分类体系：

数据生成器（Data Generator）（第 3 节）：将三维生成视为生成可仿真对象与资产的引擎，包括关节化对象、物理驱动对象、可变形对象，以及从原始输入到可执行格式的端到端流水线。
仿真环境（Simulation Environments）（第 4 节）：将三维生成视为构建交互世界的机制，追踪从结构驱动场景合成到可控环境生成，再到智能体式环境生成的演化过程。
仿真到现实桥接（Sim2Real Bridge）（第 5 节）：将三维生成视为连接仿真与部署的桥梁，涵盖数据增强、数字孪生构建，以及面向下游机器人学习的任务与示范生成。

围绕这三种角色，我们进一步总结了支撑该领域发展的技术基础、数据集、评测协议以及开放挑战。这三类角色的区分依据并不是底层技术，而是其主要目标：

数据生成器关注创建新的可仿真资产，即学习几何、关节结构或物理属性的生成先验，以合成资产库中尚不存在的新对象；
仿真环境关注将对象组合成交互场景，无论是通过程序化规则、学习到的布局先验，还是智能体规划；
仿真到现实桥接关注对现有真实世界内容进行重建或增强，以支持部署，包括基于观测构建数字孪生、增强已有示范数据，或合成训练轨迹。

当某项技术跨越多个角色（例如某些关节对象方法既能生成新资产，也能重建现实实例）时，我们依据其主要贡献进行归类，并明确讨论其与其他部分的关联。

本综述的贡献

本文的主要贡献如下：

明确区分面向具身应用的三维生成与传统三维生成。

我们提出将仿真就绪性（simulation readiness）——包括几何有效性、物理参数化、运动学可执行性以及仿真器兼容性——作为核心评估标准，从而将研究重点从单纯视觉指标转向部署需求。

提出首个围绕三维生成在具身 AI 中三种核心角色构建的分类体系。

即：数据生成器（Data Generator）、仿真环境（Simulation Environments） 和 仿真到现实桥接（Sim2Real Bridge），从而连接通常被割裂讨论的计算机视觉、计算机图形学、机器人学和仿真系统研究脉络。

识别并系统化总结制约实际部署的关键技术鸿沟。

包括：大规模标准化物理标注的缺乏、生成质量与仿真器兼容性的矛盾、具身实用性的评估困难，以及仍然存在的仿真到现实领域差距，并据此提出具体研究方向。

本综述的范围

本文聚焦于以仿真为中心的三维资产生成（simulation-centric 3D asset generation），即输出目标是部署到物理仿真器或具身 AI 环境中的方法。我们涵盖：

对象级与场景级生成；
涉及几何、关节结构和物理属性的生成方法；
Real-to-Sim 和 Sim-to-Real 的迁移流水线。

我们不包括：

纯二维方法；
不具备仿真就绪几何的 novel view synthesis 方法；
除非三维生成是核心贡献，否则不讨论机器人策略学习方法；
户外/自动驾驶场景生成（其资产粒度和仿真生态与本文讨论对象存在根本差异）。

与其他综述的关系

现有综述主要关注相邻领域：

三维生成综述 [18]–[20] 主要关注生成模型骨干架构和视觉指标，而未涉及仿真器兼容性和具身评估；
场景生成综述 [24] 未涵盖对象级仿真就绪生成与仿真到现实迁移；
具身 AI 综述 [1] 通常将三维资产视为既定基础设施；
面向操作任务的生成式 AI 综述 [27] 关注策略与规划，而非上游资产生成流水线。

据我们所知，尚无已有综述能够从具身 AI 的视角统一覆盖对象生成、场景合成与仿真到现实迁移。

文章结构

本文其余部分组织如下：第 2 节介绍技术基础，包括三维表示、生成模型基础以及具身 AI 基础；第 3 节介绍数据生成器（Data Generator），讨论三维生成如何作为可仿真对象和资产的来源；第 4 节介绍仿真环境（Simulation Environments），讨论三维生成如何构建交互式世界；第 5 节介绍仿真到现实桥接（Sim2Real Bridge），讨论三维生成如何连接仿真与现实部署；第 6 节总结面向具身 AI 的三维资产生成相关数据集与评测协议；第 7 节讨论主要开放挑战与未来方向；第 8 节总结全文。

成为VIP会员查看完整内容

相关内容

具身智能

关注 40

具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

VIP会员