综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

导读

机器人操作世界模型关注一个非常具体的问题：机器人在真正执行动作之前，能否先在内部预测“如果我这样推、抓、放、插入或打开，物体、接触关系和场景几何会如何变化”。这类能力不同于普通感知，也不同于直接输出动作的策略。它的核心是动作条件预测：不仅理解当前场景，还要预测机器人干预后的未来世界演化。这篇综述的价值在于，把原本分散在模型强化学习、模仿学习、视频生成、三维/四维几何、物理仿真和视觉-语言-动作系统中的相关工作，统一放到机器人操作这个场景下重新梳理。论文提出三个主问题：世界模型预测什么表示，预测如何影响动作，预测在学习流水线的哪个阶段发挥作用。围绕这三个问题，作者进一步整理了五类表示、两类预测-动作接口、五种基础设施角色、三个生命周期阶段、34个代表性数据集以及评估挑战。阅读本文可以抓住一条主线：世界模型并不是“生成一个看起来合理的视频”这么简单。对于机器人操作而言，预测必须是可行动、可校准、物理可信，并能在闭环策略学习或在线决策中真正减少试错成本。也正因此，论文反复强调评价标准需要从视觉保真度转向动作对齐、接触一致性、物理可执行性和真实策略收益。

Abstract / 摘要

机器人操作依赖于在执行前预测动作如何重塑物体、接触和场景几何的能力。学习的世界模型通过在机器人干预下预测任务相关的未来演化来提供这种能力。然而，当前“世界模型”一词已涵盖潜在动力学模型、动作条件视频生成器、三维和四维场景预测器、物理信息仿真器以及视觉-语言-动作系统内部的预测模块。这种广度导致了文献的碎片化，并模糊了对操作至关重要的设计选择。本综述通过三个问题来组织机器人操作的世界模型文献：预测何种未来表示、预测如何与动作连接、以及预测在机器人学习流水线的哪个阶段被使用。我们操作性地将世界模型定义为动作条件的预测系统，并将其与感知模块、逆模型、策略、奖励和值函数区分开来。随后，我们将现有工作组织为五个表示族，开发了一个区分集成预测-动作模型与显式预测规划器的功能分类法，并描述了基础设施角色，包括合成经验生成、候选过滤、基于搜索的评估、学习环境和结果验证。我们进一步将这些角色映射到预训练、后训练和推理适应阶段，回顾了34个操作数据集，并综合了预测保真度、任务性能和仿真器可靠性的评估协议。本综述表明，世界模型正在从任务特定的动力学预测器演变为机器人学习的预测基础设施，同时揭示了接触建模、幻觉控制、动作对齐和闭环使用下的基准测试等开放挑战。

I. Introduction / 引言

机器人操作是一个在物理交互下进行决策的问题。机器人必须在接触、遮挡、部分可观测性和不可逆的状态变化中行动，且通常只有有限的试错机会。因此，仅从当前观测出发的行动是不够的。机器人必须预见到物体、接触和场景几何在其自身动作下将如何演化。经典的运动控制和基于模型的强化学习通过内部前向模型来满足这一需求，这些模型估计运动指令的感官和物理后果。同样的思想构成了现代世界模型概念的基础：一个学习的预测系统，估计任务相关的未来演化，并将该预测提供给策略、规划器、仿真器或学习算法。随着机器人学习从紧凑的任务特定控制器向大规模、语言条件的通用系统发展，世界建模的范围迅速扩大。除了Dreamer家族的潜在动力学模型，预测系统现在包括动作条件视频生成器、策略后训练的学习仿真器、三维和四维场景预测器、物理信息动力学模型，以及视觉-语言-动作系统内部的预测组件。这种扩展使得“世界模型”一词变得越来越模糊。在一个社区中，它可能指用于规划的紧凑转移模型。在另一个社区，它可能指想象可能未来的视频生成器。在第三个社区，它可能指一个学习的环境、一个产生奖励的仿真器，或一个嵌入VLA策略内部的推理模块。共同的思想是预测，但预测的表示、动作接口和使用阶段往往存在显著差异。这种模糊性对操作领域尤其不利。预测保真度和动作效用并不总是一致的。一个模型可能生成视觉上合理的未来，却未能保持接触、物体恒存性、力闭合或动作可行性。相反，一个紧凑的潜在模型可能支持高效控制，同时隐藏了检查、转移或安全关键部署所需的结构。不同研究社区以不同方式解决这种张力。基于模型的强化学习强调紧凑的潜在动力学和样本高效的规划。视频预测强调时间连贯性和视觉真实感。几何和物理信息模型优先考虑空间结构和物理合理性。VLA系统将预测与语言条件的推理和动作生成纠缠在一起。因此，一个以操作为中心的综述必须分离三个常常被混淆的问题：预测何种未来表示、预测如何影响动作、以及预测模型在学习流水线中的何时被使用。最近的综述提供了有价值的背景，但没有一个完全解决了这种操作特定的设计空间。通用世界模型综述强调视频生成和自动驾驶，而仅边缘性地处理操作。具身智能综述将世界模型与物理仿真器一起作为使能技术讨论，而非作为一个统一的预测设计空间。三维和四维建模综述关注几何表示，未覆盖更广泛的基于模型的强化学习和模仿学习传统。最相关的操作综述要么避免给出严格定义并按感知、预测和控制组织方法，要么将注意力限制在VLA智能体并排除了大量现代世界模型概念起源的基于模型的强化学习和模仿学习文献。相邻的基于VLM的VLA和具身VLA模型综述将世界建模视为一个辅助方向而非分析的中心对象。因此，该领域缺乏一个综述，能够通过一个共同的以操作为中心的预测建模视角，将强化学习、模仿学习、视频生成、几何、物理和VLA系统连接起来。本综述通过围绕三个互补轴组织机器人操作的世界模型来填补这一空白。首先，我们问模型表示什么。我们比较图像和视频预测、学习到的潜在动力学、运动场、场景流、三维和四维场景结构以及物理信息动力学。其次，我们问预测如何连接到动作。我们区分集成预测-动作模型（其中预测与动作生成融合）和显式预测规划器（将子目标、轨迹、路点、潜在计划或分层计划暴露给单独的执行器）。第三，我们问模型何时被使用。我们分析世界模型作为预训练期间的预测先验、作为后训练期间的数据引擎、学习仿真器、奖励源和验证器，以及作为推理期间的在线推理或适应机制。分离这些轴使得来自强化学习、模仿学习和VLA研究的方法能够在不被强制归入单一架构类别的情况下进行比较。我们的综述范围由功能定义而非架构定义。我们包括那些预测操纵任务相关未来世界演化的方法，特别是当预测以机器人动作为条件或用于评估动作后果时。这包括潜在动力学模型、动作条件视频预测器、几何和时空预测器、物理信息动力学模型、学习仿真器、学习环境以及VLA系统内的预测组件。我们还包括常用于训练、评估或压力测试此类预测系统的数据集和基准测试。我们排除纯感知模块、逆模型、无显式预测的策略以及孤立的奖励或值函数，尽管这些组件经常出现在使用世界模型的系统中。目标不是枚举具身AI中的每个预测模型，而是识别决定预测是否对机器人操作有用的那些设计选择。我们的核心立场是，世界模型最好被理解为一个预测系统，其价值共同取决于它表示未来的哪些方面以及这些预测如何被机器人学习或控制所利用。第二节通过一个操作性定义形式化这一立场，该定义将世界模型与感知模块、逆模型、策略、奖励模型和值函数区分开来。第三节调查五个表示族并分析它们在保真度、规划范围、计算成本和鲁棒性方面的权衡。第四节发展预测-动作分类法，而第五节将世界模型表征为用于合成经验生成、候选过滤、基于搜索的评估、学习环境和结果验证的学习与决策基础设施。第六节将这些角色重新组织到预训练、后训练和推理适应阶段。第七节回顾34个主要数据集，第八节综合涵盖预测保真度、下游任务性能和仿真器可靠性的评估协议。这些视角共同展示了世界模型如何从狭窄的动力学预测器演变为机器人学习的预测基础设施，同时阐明了这种扩展在哪些方面改进了操作，以及在哪些方面主要将负担转移给了数据、验证或闭环评估。图1：机器人操作中的世界模型需要在当前观测与动作条件下预测任务相关的未来演化，为规划、验证或学习提供依据。来源：原论文配图中文标题化。

II. Definition and Scope of World Models / 定义与范围

“世界模型”一词现在被用于基于模型的强化学习、模仿学习、视频生成、机器人和视觉-语言-动作系统，通常具有不同含义。在一个场景中，它指用于规划的紧凑潜在转移模型。在另一个场景中，它指动作条件视频生成器。在第三个场景中，它指学习仿真器、预测性奖励源或通用策略内部的推理组件。一个对机器人操作有用的定义必须满足两个要求。它必须足够广泛以涵盖现在支持机器人学习的预测系统，并且足够狭窄以排除自身不模拟未来世界演化的感知模块、逆模型、策略和奖励预测器。我们从该概念在前向模型和基于模型学习中的历史根源开始，然后操作为操作定义一个定义。

从前向模型到基于模型的学习

尽管“世界模型”这个标签直到最近才广泛使用，但其基本思想在认知科学、运动控制、控制理论和强化学习中有着悠久历史。早期工作使用诸如“内部模型”和“前向模型”等术语来描述估计运动指令的感官或物理后果的预测机制。这种区分对操作至关重要。前向模型预测身体和环境在候选动作下将如何变化，而逆模型估计达到期望状态所需的动作。因此，逆运动学和逆动力学支持命令合成，而前向模型支持预测、反事实比较和跨可能未来的规划。基于模型的强化学习将这种预测思想转化为决策的计算机制。Dyna通过动作效果的学习模型连接学习、规划和行动。后来的概率基于模型方法表明，学习到的动力学可以在有限的交互预算下支持策略搜索。深度基于模型的强化学习将范式扩展到高维观测。PlaNet从像素学习了一个循环潜在动力学模型并将其用于在线规划，而Dreamer通过在潜在空间中想象轨迹优化行为。这些系统建立了一个对操作仍然相关的重要原则：世界模型不需要重建世界的每一个细节。当它预测下游策略、规划器或学习算法可以利用的未来演化方面时，它就是有用的。

当代具身AI中的世界模型

最近的具身AI既拓宽了世界模型的表示也拓宽了其用途。Ha和Schmidhuber在深度生成设置中推广了这个术语，其中紧凑的潜在预测器使得在想象环境中进行策略学习成为可能。此后，该术语已从用于强化学习的潜在动力学扩展到包括动作条件视频预测、学习环境、三维和四维场景预测、物理信息动力学、联合世界-动作模型以及VLA系统内部的预测组件。这种扩展反映了预测模型使用方式的真正变化。它们不再仅仅作为控制的短视界转移模型。它们还提供用于预训练的可重用先验、生成合成经验、评估候选动作、提供奖励或偏好信号、支持自我纠正，并作为策略改进的学习仿真器。同样的扩展也造成了歧义。一些系统被称为世界模型是因为它们预测视觉未来。另一些则因为支持规划而获得标签，即使预测的状态是潜在且不可直接解释的。还有一些则因为提供了一个可以评估或改进策略的环境而被称为世界模型。这些用途是相关的，但不可互换。一个产生合理未来的视频生成器，如果其预测未与动作对齐，可能无法作为操纵世界模型。一个潜在动力学模型对控制可能有效，但难以检查物理合理性。一个学习仿真器对策略排序可能有用，但如果可能被利用，则对策略优化不安全。因此，操纵场景需要一个基于预测功能而非架构、模态或训练损失的定义。

机器人操作的操作性定义

世界模型是一个预测系统，可以是端到端学习的，也可以是由学习和分析组件组装的，它估计外部世界任务相关方面随时间如何演化，并且在机器人操作中，预测或评估在机器人干预下的演化。这个定义有三个部分。第一，系统必须是预测性的。它必须估计未来演化，而不仅仅是编码当前状态。一个静态视觉编码器、物体检测器、分割模型或语言条件感知模块可能为世界模型提供输入，但除非它建模时间变化，否则本身不是世界模型。第二，系统必须基于世界。它必须描述外部场景的某些方面，如观测、物体、几何、接触、物理状态、可供性或代表这些量的潜在变量。一个奖励模型、值函数或评价器可能对动作选择有用，但它本身总结了效用而非建模世界如何变化。第三，对于操作，系统必须具有干预意识。它必须支持关于如果机器人推、抓取、放置、插入、打开或以其他方式作用于环境将发生什么的反事实推理。这通常意味着显式的动作条件，尽管一些预训练的被动预测器在它们被适应、查询或嵌入评估机器人动作后果的系统时也进入我们的范围。预测的量可以采取多种形式。它可以是未来图像、视频令牌序列、潜在状态、运动场、点云、三维或四维场景表示、物体轨迹、接触状态、材料变形、可供性变化或物理变量。表示次于功能。当模型的预测支持关于未来世界状态的动作、学习、模拟、评估、验证或推理时，该模型就符合条件。这种基于功能的定义使我们能够比较具有显著不同架构的方法，同时保持围绕预测性世界演化的清晰边界。这个边界将世界模型与邻近组件区分开来。逆模型从期望状态计算动作，但不预测替代动作的后果。策略将观测和目标映射到动作，但只有当它们显式地建模未来状态、观测或结果时，才符合世界模型组件的条件。奖励模型和值函数估计任务效用，但孤立来看它们不是世界模型，因为它们抽象掉了转移结构。静态基础编码器可以使世界模型更可转移，但除非与预测机制配对，否则它们不是世界模型。经典模拟器占据一个相关但独特的位置。当用于预测未来环境演化时，它们可以充当世界模型的功能，但本综述关注学习或混合预测系统，因为它们是机器人学习中近期概念扩展的来源。区分该术语使用的三个层次也是有用的。世界模型组件是更大机器人系统内部的预测模块，如潜在动力学模型、视频预测器、几何预测器或学习转移模型。世界模型增强系统是使用此类组件生成动作、评估候选或改进学习的策略、规划器或VLA架构。世界模型目标是一种训练信号，如未来帧预测或潜在预测，即使部署时不使用显式展开，也可能改善表示。这种区分很重要，因为一些近期系统的主要收益来自预测性预训练而非测试时想象。在本综述中，我们尽可能分开对待这些情况：预测组件定义了范围，增强系统定义了功能接口，而预测目标解释了有用的表示是如何学习的。在这个范围内，我们包括潜在动力学模型、动作条件视频预测器、预测性三维和四维场景模型、基于流和运动的预测器、物理信息动力学模型、学习模拟器、学习环境以及显式建模未来世界演化的联合世界-动作模型。我们还包括VLA系统中连接语言或任务目标与未来状态、观测、动作后果或结果验证的预测模块。我们排除纯感知模块、逆模型、无显式预测的策略以及孤立的奖励或值模型。这些组件对许多机器人学习系统仍然是必不可少的，但它们不是世界模型，除非它们参与建模外部世界如何演化。这个操作性定义促使了本综述其余部分的组织。第三部分问未来世界演化以何种形式表示。第四部分问该预测如何连接到动作。第五部分问预测模型如何成为可重用的学习和决策基础设施。第六部分问相同的预测能力在预训练、后训练或推理期间何时使用。因此，该定义不是一个固定的架构类别，而是分析预测如何在机器人操作中变得有用的一个边界。图2：世界模型的五类表示从图像/视频、潜在状态、运动场与场景流，延伸到3D/4D几何和物理信息动力学，结构归纳偏置逐步增强。来源：原论文配图中文标题化。

III. Representations / 表示

世界模型选择的表示定义了未来的哪些方面可以被预测、检查、优化和转移。对于操作，这种选择不仅仅是一个实现细节。一个像素空间预测器暴露了视觉上可解释的未来，但可能将容量花费在纹理和光照上。一个潜在模型支持高效规划，但隐藏了决定物理合理性的结构。一个几何模型改进了空间推理，但依赖于感知和重建的质量。一个物理信息模型原则上提供更强的外推能力，但需要对接触、摩擦和材料参数进行假设，而这些参数难以仅从视觉识别。因此，表示是世界建模中的第一个主要设计轴。我们将现有方法组织为五个族：图像和视频表示、学习潜在表示、运动场和场景流、几何和时空表示、以及物理信息动力学。这些族在两个维度上有所不同。第一个是模型预测的空间实体，从像素到潜在变量、流场、点云、体素场景和物理状态。第二个是表示使何种动力学易于表达，从外观演化到任务导向变化和物理约束转移。图2总结了这一谱系。图2：世界模型的表示谱系。五个族按结构化归纳偏置递增排序，从外观重建的图像和视频预测到物理信息动力学。合适的表示取决于预测的下游角色：视觉预测、高效控制、运动推理、几何一致性或物理外推。

图像与视频表示

图像和视频世界模型直接在视觉领域进行预测，使用原始帧、图像令牌、视频令牌或视频-VAE潜在表示。其主要优势是接口兼容性。许多机器人策略已经使用图像，因此预测的未来图像或视频可以用作子目标、展开、想象环境或推理轨迹，而无需显式的状态估计器。UniPi和SuSIE展示了视频或图像生成可以重新用作策略基板，而面向机器人的系统如VLP、GR-1和GR-2将视觉预测与语言条件动作生成耦合。更近期的系统，包括DreamGen、HMA、WorldGym、Cosmos Policy和Genie Envisioner，将这一思想扩展到基础尺度世界建模、合成经验生成、学习环境和策略评估。这一族的优势在于其预测是可解释的，并且自然地与视觉模仿（VLA）策略对齐。生成的未来可以被人类检查、被视觉语言模型评分、转换为子目标、或用作后训练期间的想象观测。这使得图像和视频表示特别有吸引力，当世界模型充当数据引擎、学习模拟器或显式视觉规划器时。其弱点是视觉合理性不等于动作有效性。像素空间目标将建模容量分配给光照、纹理、背景杂波和相机伪影，而操作成功通常依赖于接触、物体恒存性、力闭合和小的几何变化。因此，展开可能在视觉上连贯，同时违反决定动作是否可执行的物理约束。对于这个族，最重要的评估不仅仅是PSNR、SSIM、LPIPS或FVD，还包括动作一致性、接触合理性和下游控制性能。

学习潜在表示

潜在世界模型将观测压缩成学习到的状态空间，并在该紧凑表示中进行预测。PlaNet和Dreamer风格的方法确立了潜在动力学可以支持从高维观测进行规划和策略优化。关键思想是预测充分性：模型不需要重建每个像素；它需要一个保留未来奖励、动作选择或行为学习所需信息的状态表示。V-JEPA 2通过强调无像素重建的预测性潜在学习进一步推进了这一原则。在操作和VLA系统中，WorldVLA、Fast-WAM、LaST-VLA、Chain of World和AtomVLA采用潜在预测来连接可扩展的世界建模与动作生成、后训练或推理。潜在表示的优势在于其效率。紧凑的潜在展开比完整的视觉展开更便宜地生成、搜索和优化。因此，它们非常适合基于模型的强化学习、想象策略学习、候选评估以及延迟约束下的推理时规划。它们还允许预测目标塑造策略表示，即使部署时不使用显式展开。代价是可审计性。一个潜在状态可能准确编码训练目标所需的信息，同时丢弃人类或验证器用来判断预测是否合理的几何、语义或物理变量。潜在模型还可能过拟合到其训练的任务和具身分布。对于这个族，决定性问题不是潜在展开在视觉上是否忠实，而是它是否能改善下游成功率、跨任务和具身转移、以及在分布偏移下保持校准。

运动场与场景流

以运动为中心的世界模型预测位移而非完整外观。这个族包括光流、场景流、物体运动场以及相关的时空位移表示。其动机是操作通常由物体在干预下如何移动而非整个图像如何变化来决定。FLIP通过以流为中心的生成规划来表示操作未来，FlowVLA将这一思想扩展到VLA系统的语言条件运动推理。通过将预测集中在运动上，这些模型减轻了照片级真实感综合的负担，并暴露了更接近动作后果的信号。流表示的优势在于它们与短视界物理变化的一致性。它们可以突出场景的哪些部分移动、物体表面如何变形或平移、以及候选动作是否产生向目标的进展。这使得它们对推动、重新排列、工具使用以及其他关键不确定性在于物体位移的任务非常有用。其弱点是运动单独是不完整的。流场可能丢弃对语言条件操作重要的物体身份、语义属性、纹理线索和静态场景约束。在接触尚未发生的场景中，它们也可能具有歧义性，因为最重要的事件是未来的不连续性而非当前的运动模式。因此，基于流的世界模型在与恢复运动场有意忽略的语义或几何表示配对时最为强大。

几何与时空表示

几何世界模型通过深度、点云、以物体为中心的结构、3D特征、神经场、高斯泼溅或四维时空体积来表示场景。其动机是许多操作失败本质上是空间性的。二维图像可能隐藏被遮挡物体、将视点变化与物体运动混淆、或使推断接触几何变得困难。3D-VLA和OG-VLA展示了将VLA系统建立在几何结构上可以改善视点变化下的泛化能力。3D-CA VLA和PointWorld进一步强调点云和3D上下文用于场景理解和未来预测。TesserAct和WristWorld将表示扩展到四维场景演化，而GWM使用基于高斯的场景建模来连接可微渲染与操作世界模型。几何表示的主要优势是空间一致性。它们使遮挡、视点变化、物体位移和机器人-场景几何比仅图像预测更加显式。这对于抓取、放置、插入、组装和长时域重新排列非常重要，因为这些任务的成功取决于可能难以从单个RGB视图推断的空间关系。几何也使某些失败更容易检测，如物体穿模、不合理的运动或不一致的多视图预测。代价是基础设施。精确的深度、多视图捕获、点云重建或体素场景建模在互联网规模下不如RGB视频可用。四维表示可能计算成本高昂，且其好处在空间范围有限的桌面环境中最为明显。因此，当空间精度和视点鲁棒性比原始数据规模更重要时，几何世界模型最有说服力。

物理信息动力学

物理信息世界模型编码或施加来自刚体动力学、接触力学、摩擦、变形或材料行为的约束。它们位于表示谱系的高归纳偏置端。PIN-WM通过为将物理信息先验纳入非抓取操作来说明这一方向，其中动作结果强烈依赖于接触和物体动力学。相关系统将学习预测与可微模拟、物理先验或结构化动态变量相结合，使得生成的未来遵守纯统计预测器经常违反的约束。物理信息表示的优势在于正确假设下的外推能力。当物体几何、材料属性和接触参数已知或可识别时，物理结构可以改善训练分布外的鲁棒性并减少幻觉性转移。这对于推动、滑动、插入、可变形物体操作和工具介导交互特别有价值，因为小的物理误差可以决定成功或失败。其弱点是操作经常违反干净物理建模所需的假设。接触是不连续的，摩擦难以估计，可变形材料难以参数化，真实场景包含未建模的柔性、感知误差和执行器不确定性。因此，可微物理可能在操作最有趣的地方恰好是脆弱的。物理信息世界模型最好不被视为学习表示的替代品，而是当与数据驱动感知和验证配对时可以改善可靠性的约束或先验。

讨论：选择表示

五个表示族主要在何处放置泛化负担方面有所不同。图像和视频模型将其放在数据规模和生成能力上。潜在模型将其嵌入训练目标和下游策略中。运动场模型假设位移捕捉了动作相关的未来。几何模型将其放在感知和重建上。物理信息模型将其放在系统辨识和物理假设的有效性上。没有一种表示在所有操作场景中占主导地位。一个有用的设计规则是根据世界模型的角色来选择表示。如果模型提供视觉子目标、合成经验或视觉策略的学习环境，图像和视频表示是自然的，但需要对动作一致性进行显式检查。如果模型用于快速想象展开、策略学习或模型预测控制，潜在表示通常更高效，但需要下游和分布外评估。如果任务依赖于短视界物体位移，流表示可以直接暴露相关变化。如果视点、遮挡或空间精度占主导，几何和时空表示更可取。如果接触、变形或非抓取动力学占主导，物理信息结构变得有价值，但仅当与可靠估计和验证配对时。因此，当前趋势是混合而非排他性的。视频模型正在以流为条件，潜在预测器正在几何基元上构建，高斯场景模型正在与物理约束结合，学习仿真器正在用验证器增强。这种趋同表明，表示应被视为一个组合设计选择。一个操作世界模型很少需要预测一切。它需要预测那些决定机器人动作是否仍可执行、物理上可信以及对其消费策略或规划器有用的未来变量。

IV. A Functional Taxonomy by Prediction–Action Interface / 按预测-动作接口的功能分类法

表示描述了世界模型预测什么。一个单独的问题是预测如何改变机器人动作。相同的预测未来可以扮演非常不同的角色：它可能隐藏在策略内部、暴露为子目标、通过逆动力学解码为动作、由规划器搜索、或仅用作辅助训练信号。因此，我们通过预测和动作生成之间的直接接口来组织本节。这种观点跨越了强化学习、模仿学习和VLA系统，因为像素、潜在、流和几何预测器都可以支持集成策略或显式规划器。关键区别在于预测是内部的还是暴露的。在集成预测-动作模型中，未来建模与产生动作的模型融合，并且预测的未来在部署时可能永远不会作为单独的对象出现。在显式预测规划器中，世界模型暴露一个中间目标，如子目标图像、展开、路点序列或潜在计划，由另一个控制器、逆模型或优化器来实现。本节关注直接动作接口，其中预测参与产生下一个动作或计划。第五部分考虑更广泛的系统角色，其中世界模型充当用于数据生成、评分、模拟、搜索或验证许多候选未来的可重用基础设施。表1：直接预测-动作接口的功能分类。方法按是否将预测融合在动作模型内部（集成）还是暴露为中间规划对象（显式规划器）进行分组。显式规划器进一步按规划输出的形式细分。

集成预测-动作模型

集成预测-动作模型将预测结构嵌入控制器本身。模型可以在训练期间预测未来帧、潜在状态、动作令牌、运动特征或语义动力学，但部署的系统通常直接输出动作。这种接口很有吸引力，因为它避免了世界模型和单独执行器之间的脆弱交接。策略可以学习对预测和控制都有用的表示，并且预测可以将动作生成正则化向物理上合理的行为。代价是可解释性。当预测是内部的时，更难以检查策略是否因为学习了有用的动力学而行动，或者预测损失仅仅改善了表示学习。 联合世界-动作生成建模。 集成的最强形式将未来观测和动作视为一个生成序列。GR-1、GR-2和HMA通过自回归令牌建模学习联合的视觉和动作动力学。WorldVLA和RynnVLA-002将这一思想扩展到多模态序列模型，其中图像、语言和动作流共享一个预测骨干。PAR引入了更物理感的令牌化，而基于扩散的变体如DUST和零样本世界-动作建模旨在提高超越纯自回归的连续控制保真度。核心优势是模型想象的内容与其可执行内容之间的一致性。由于未来预测和动作生成是联合优化的，模型被鼓励表示动作后果而非仅仅是被动视觉延续。核心限制是规模化成本。联合世界-动作模型需要大型多模态数据集、高容量序列模型以及视觉预测和控制精度之间的仔细平衡。近期分析进一步表明，这个族的好处可能同样来自预测性表示学习和显式测试时想象。 预测增强策略学习。 一种更松散的集成形式保持架构以策略为中心，同时使用预测作为辅助信号、瓶颈或推理轨迹。在模仿学习中，Seer将预见令牌与动作令牌对齐，而FLARE用未来潜在对齐替换显式帧生成。在VLA系统中，CoT-VLA插入预测的未来帧作为视觉推理步骤，DreamVLA预测动态和语义世界知识，而VLA-JEPA、FlowVLA和3D-VLA将预测移动到更接近控制相关结构的潜在、运动或几何空间。DIAL和UP-VLA在高级指令理解和低级动作生成之间使用预测性或意图般的瓶颈。在这些系统中，预测塑造了策略，而不一定成为单独优化的规划器。同样的原理出现在基于想象的策略学习中。Dreamer风格的方法通过潜在展开优化策略，DayDreamer展示了这一范式可以转移到物理机器人。后续操作系统通过多视图一致性、视图不变预测或接触敏感的潜在扩散加强了预测基板，如Multi-View Masked World Models、ReViWo和LaDi-WM。LUMOS通过潜在实践训练语言条件技能，IQ-MPC在世界模型、评价器和策略之间结合逆软Q模仿，而FOCUS和SeeX使用内部预测来改进数据收集或探索。好处是策略接收到关于演示或稀疏奖励中缺失的未来的监督。限制是较弱的因果问责性。除非预测路径被仔细暴露或消融，否则改进的性能可能反映更好的表示学习而非可靠的在线推理。

显式预测规划器

显式预测规划器将预测暴露为另一个模块必须执行的中间对象。预测的对象可以是目标图像、未来视频、潜在轨迹、路点序列或子目标层次结构。这种接口比集成预测更易于检查，因为计划通常可以被可视化、评分或替换。它还允许模块化重用：一个强世界模型可以与不同控制器配对，而一个强控制器可以执行不同的预测目标。弱点是交接问题。预测的未来可能是期望的但不可达，并且即使预测正确，控制器也可能失败。因此，显式规划将负担从表示学习转移到可执行性和闭环纠正。 子目标预测。 最简单的显式接口预测单个未来目标。SuSIE使用图像编辑扩散模型生成子目标图像，由目标条件控制器执行。GR-MG将相同的图像级接口适应到部分标注的语料库，而Imagine2Act用3D点云信息丰富了子目标以获得更精细的空间精度。MinD使用相关的双系统设计，将低频视觉规划器与高频控制器配对。子目标预测很有吸引力，因为它暴露了一个可解释的目标并保持了内部控制环的快速性。其限制是时间上的欠指定。单个目标图像没有说明达到它所需的接触序列、接近路径或恢复行为，这使得该接口对于长时域或接触丰富的任务较为脆弱。 轨迹预测。 轨迹规划器预测未来状态的短序列而非单个目标。UniPi生成文本条件的未来视频并通过逆动力学解码动作。CLOVER通过在执行偏离预测轨迹时重新规划来闭合环路，而EVA通过奖励与动作解码兼容的展开来改进可执行性。潜在变体以较低的展开成本遵循相同的接口。V-JEPA 2从大规模视频预训练预测未来潜在状态，VPP使用预测视觉轨迹引导逆动力学控制。在强化学习中，TD-MPC2和MoDem系列使用短潜在展开或演示增强的模型预测控制来选择动作。轨迹预测提供了比子目标预测更丰富的时间指导，但它更暴露于复合误差。预测的序列越长，规划器处理想象状态与实现状态之间漂移的负担就越大。 路点和潜在计划预测。 一些规划器将未来压缩为结构化中间变量而非完整观测。PIVOT-R预测下游执行的任务相关路点，而PIN-WM使用物理信息可微世界模型优化接触丰富的操作计划。更广泛地说，当决策变量是在推理时优化的紧凑计划而非显式图像或视频时，许多潜在规划方法符合这一类别。优势是搜索效率。一个路点或潜在计划可以保留未来的动作相关结构，同时避免高维视觉展开的成本。劣势是降低的透明度。潜在计划之所以高效，部分是因为它们隐藏了细节，使得更难验证、调试和跨具身进行通信。 分层预测规划。 层次结构不是一个单独的计划类型，而是在时间尺度上堆叠先前接口的一种方式。Hierarchical Planning with Latent World Models将多时间尺度潜在规划与真实机器人执行相结合。VLP结合了语言子目标与文本到视频生成，Reflective Planning通过想象未来修正长时域决策，NovaPlan将视频-语言规划与几何执行结合，RoboHorizon使用LLM引导的任务分解，而TriVLA将基础、情节世界建模和低级控制分离为协调的子系统。层次结构有帮助，因为长时域操作很少通过一个统一的预测范围来解决。高层预测确定下一步应该发生什么，而低层预测评估局部可行性。风险是误差传播。一个错误的高层子目标可以使低层预测和控制看起来称职，同时仍然将系统推向失败。

设计启示

直接预测-动作接口建议了一个实用的分类规则。如果预测融合在产生动作的模型中并且在部署时未暴露为单独的目标，则该方法是集成的。如果预测暴露为子目标、轨迹、路点序列、潜在计划或另一个模块必须实现的层次结构，则该方法是显式预测规划器。如果世界模型反而用于生成数据、评分候选、提供学习环境、排序策略或跨许多可能的未来验证结果，则其主导角色是基础设施，如第五节所述。集成和显式接口之间的选择是耦合性和可检查性之间的权衡。集成模型避免了模块不匹配，并且可以联合学习预测和动作，但其内部未来难以审计。显式规划器暴露了预测的未来并支持模块化控制，但它们必须解决可执行性、重新规划和误差传播问题。这种权衡解释了为什么当前系统越来越多地模糊了边界：集成的VLA策略添加了预测推理的痕迹，显式规划器添加了学习到的逆动力学和闭环纠正，而基础设施模型为两者提供外部验证。对于操作，最可靠的系统可能是那些结合了紧密动作耦合与某种暴露机制的，以检查想象的未来是否仍然物理上可达。图3：世界模型可以生成多样化未来场景和训练经验，帮助机器人扩展长尾情形、失败恢复和任务变化覆盖。来源：原论文配图中文标题化。

V. World Models as Learning and Decision Infrastructure / 作为学习与决策基础设施的世界模型

世界模型越来越多地充当机器人学习和决策的基础设施，而不仅仅是单一动作生成路径的组件。与第四节中预测-动作分类法的区别在于使用单位。在那里，预测是策略内部的或暴露为指导单个决策序列的目标。在这里，相同的预测能力跨许多候选、展开、训练示例、策略更新、奖励估计或验证决策被重用。在这种基础设施角色中，世界模型可能仍然影响动作选择，但其价值在于被重复查询为数据引擎、评估器、模拟器或评判者。这种系统级角色对机器人操作特别重要，因为真实交互成本高、评估可能有风险，并且许多物理任务缓慢、不可逆或难以重置。用作基础设施的世界模型可以扩展学习可用的数据、过滤现有策略提出的动作、支持反事实搜索、为策略改进提供想象环境、或确定预测结果是否可信。我们按每个角色解决的瓶颈来组织这些用途，如图4总结。合成经验生成旨在解决演示和机器人数据中的有限覆盖。候选动作过滤针对现有策略的不完美行为。基于搜索的评估针对在线反事实决策。学习环境针对策略评估和改进的成本。结果评分和验证针对想象经验的可靠性。这些角色是功能性的而非互斥的，单个系统可能结合其中几个。表2：基础设施世界模型的功能角色、主要瓶颈和相关代表性方法的总结。

合成经验生成

合成经验生成使用世界模型来放大策略学习所依据的分布。操作策略失败通常不是因为学习算法弱，而是因为可用演示覆盖了太少的物体、视点、任务变化、接触事件或恢复行为。一个生成式世界模型可以在强化学习或在线适应开始之前通过产生未来观测、替代视图、完整轨迹或动作条件结果来解决这个瓶颈，从而扩展有效训练集。 DreamGen通过使用视频生成合成照片级真实感的操作轨迹，然后恢复伪动作来为下游策略学习构建神经轨迹，使这一数据引擎角色变得明确。其贡献不仅是生成合理的机器人视频，而是将生成的未来转化为策略可以消费的监督。后续工作将这个模板扩展到了几个方向。Ctrl-World强调可控的合成生成，反映了生成的轨迹需要是可条件的而不仅仅是多样的。WristWorld针对一个特定的感知缺口，生成难以在真实环境中系统收集的腕部视图和四维操作观测。GigaWorld-0将世界模型框定为具身学习的可扩展数据引擎，而Cosmos Policy推动基础规模的动作条件未来生成用于视觉运动控制和规划。主要的失败模式是动作不一致。生成的轨迹可以拓宽视觉多样性，同时注入不可执行或物理上不一致的监督。一个视频可能描绘成功的抓取、插入或重新排列，而没有编码实现它所需的力、接触或中间动作。因此，合成经验需要可控性、动作标注、伪动作恢复或下游过滤，以避免在吸引人但不可达的未来上训练策略。当生成扩展了长尾变化和恢复行为的覆盖范围，同时保持与机器人具身和动作可行性对齐时，这个角色最强。

候选动作过滤与精炼

候选动作过滤使用世界模型作为现有策略周围的预测性评价器。瓶颈不是缺少策略，而是其提议在分布偏移、杂波、接触不确定性或长时域执行下的不可靠性。策略提出动作、动作块或轨迹，世界模型根据预测的可行性、进展、安全性或任务成功来过滤、重新排序或精炼它们。这种接口很有吸引力，因为它可以在不替换策略本身的情况下改进一个强的预训练策略。 Generative Predictive Control通过将一个冻结的扩散行为克隆策略与一个独立训练的动作条件视频世界模型配对来说明这一模式。策略提出短视界动作，世界模型根据其在真实操作系统上的预测可行性重新排序它们。一个流匹配变体将相同的思想扩展到具有测试时热启动的更高频率控制。在这两种情况下，世界模型充当对提议行为的外部检查，而不是主要动作生成器。这使得过滤对部署实用，因为它保留了基础策略的多样性和流畅性，同时添加了一个可以拒绝可能失败的预测层。限制是提议依赖性。候选过滤只能改进它接收到的动作。如果基础策略从未提出一个成功的动作，单独评分无法恢复一个。因此，性能取决于提议多样性和评分校准。预测的未来可能看起来合理，而实际上是动力学上不可能的，高评分可能反映视觉偏见而非真实任务进展。因此，候选过滤最好被视为部署时精炼机制，其可靠性取决于世界模型评分是否与真实可行性和任务成功相关。

基于搜索的动作评估

基于搜索的动作评估通过将世界模型置于重复决策程序中加强了候选过滤。瓶颈是在线反事实比较。不是一次性评分一小批提议，系统在扩展搜索树、优化潜在轨迹或执行模型预测控制时多次查询模型。世界模型充当一个评估预言机，在机器人承诺其中一个之前估计在替代决策下可能发生什么。 FLIP和Vidar在候选动作下预测未来运动或视频，并使用这些预测结果来指导控制。VLA-Reasoner在蒙特卡洛树搜索内重复查询世界模型以在线比较候选轨迹。WorldPlanner将相关思想应用于模仿式操作，结合视觉世界模型与扩散动作先验上的蒙特卡洛树搜索，而M3PC展示了预训练的掩码轨迹模型如何通过重复潜在评估支持推理时模型预测控制。在这些方法中，关键优势是反事实选择：机器人可以在承诺下一个动作之前比较多个想象的未来。这个角色不同于显式预测规划，因为模型主要用作决策算法内的评估器，而不是暴露计划的产生器。其预测可能永远不会作为子目标或轨迹交给单独的执行器。输出为在候选物中选择提供证据。主要的失败模式是延迟和对模型误差的过度优化。搜索可以放大一个校准良好的世界模型的实用性，但它也可以放大偏差，因为决策过程重复查询和优化针对同一个不完美的预测器。高维视频或3D展开使这特别昂贵，这就是为什么潜在动力学模型如M3PC和DINO-WM对此角色有吸引力的基板。因此，基于搜索的评估在反事实比较获得的鲁棒性证明了增加的推理成本的合理性时，以及当模型误差通过重新规划、不确定性估计或验证得到控制时，最为有用。

用于策略评估和改进的学习环境

学习环境是解耦程度最高的基础设施角色。瓶颈是通过真实世界交互评估或改进策略的成本和风险。在这种角色中，世界模型变成一个虚拟环境，在其中可以展开、比较、精炼或压力测试策略。这不同于合成数据生成，因为想象的环境可以支持闭环交互和策略优化，而不仅仅是离线监督。一些学习环境是紧凑且以状态为中心的。Robotic World Model和DINO-WM使用学习到的特征动力学作为控制和策略精炼的优化表面。其他环境直接合成观测。World4RL在扩散世界模型内精炼策略，RISE走向自我改进的策略和世界模型循环，GWM使用三维高斯表示进行几何感知的场景演化，而Ctrl-World使用可控生成合成改进下游行为的成功轨迹。以状态为中心的环境展开成本更低且更易于优化。以观测为中心的环境与视觉策略更自然地对齐，但它们更慢且更容易受到视觉上合理但物理上不一致的伪影影响。最近的一条线将学习世界视为VLA后训练的强化学习基板。WorldGym通过将动作条件展开与VLM基评分相结合来框定世界模型作为策略评估的环境，以在真实部署之前在想象中评估候选策略。World-Env从评估转向极端数据稀缺下的强化式后训练，通过添加VLM引导的反射器提供密集奖励并预测任务终止。WMPO和Prophet进一步将想象交互视为动作策略的优化基板，而World-Gymnast表明在动作条件视频世界模型内部进行强化学习可以改善超越监督微调和超越传统软件仿真器中的强化学习的操作策略。World-VLA-Loop通过将策略失败反馈回世界模型学习来闭合环路，而WoVR专注于幻觉、长时域漂移以及策略对模拟器不准确性的利用。核心风险是模拟器利用。在学习环境中训练的策略可能发现利用模型伪影而非可转移操作技能的行为。这种风险比普通预测误差更严重，因为策略优化主动搜索模拟器中的弱点。因此，一个学习环境不仅应通过视觉质量或展开可能性来评估，还应通过它是否保持策略排名、支持真实世界改进以及在闭环训练下避免可利用的幻觉来评估。

结果评分与可行性验证

结果评分将想象未来转换为可以指导学习或决策的量，如奖励、进展估计、偏好、可行性判断或安全分数。瓶颈是反馈。许多操作任务提供稀疏奖励或延迟的成功信号，生成的展开只有在系统能够决定哪些想象结果代表进展时才是有用的。这个角色经常与学习环境同时出现，但它也可以独立运作，当世界模型提供反馈而不充当完整模拟器时。 WorldGym通过使用VLM基奖励评分来评估世界模型中展开的结果来实例化这个角色。IRL-VLA通过奖励世界模型使这个想法更明确，强调世界建模不仅可以用于生成未来观测，还可以为VLA学习提供优化信号。NORA-1.5使用世界模型信息的偏好奖励进行DPO风格适应，SRPO使用世界模型潜在表示作为密集自我参考奖励的进度度量，而AtomVLA使用预测性潜在世界模型在离线后训练期间对分解的子任务目标对候选动作块进行评分。在这些系统中，世界模型从预测者转变为评判者。其价值在于将想象轨迹转化为策略可以优化的反馈。验证比评分更严格。评分询问想象结果有多好，而验证询问想象的转移是否值得信任。World Action Verifier通过评估预测的转移是否合理和可达来扩展评判者接口。通过将验证分解为状态合理性和动作可达性，它解决了以模拟器为中心的世界建模的一个核心弱点：看起来真实的想象未来不一定是可行的。验证可以检测模型误差、过滤想象经验、并支持在未充分探索区域中的自我改进。其自身的失败模式是共享盲目性。一个在与生成器相同的数据或表示上训练的验证器可能遗漏相同的接触、几何或动作可行性误差。因此，可靠的验证受益于独立信号、显式物理约束或真实世界校准。

设计启示

基础设施视角改变了世界模型应如何被评估。用作数据引擎的模型应通过其生成的经验是否改善了真实策略性能来判断，而不仅仅通过其视频看起来是否真实来判断。用于过滤或搜索的模型应通过校准和动作对齐来判断，而不仅仅通过展开可能性来判断。一个学习环境应通过它是否保持策略排名和支持无可利用伪影的改进来判断。一个验证器应通过它是否检测到生成器本身遗漏的失败来判断。在这些角色中，核心问题不是世界模型能否想象一个合理的未来，而是想象的未来在闭环策略学习和决策中是否仍然有用。这些基础设施角色展示了为什么世界模型正在成为机器人学习的可重用基板。它们在训练前扩展经验，围绕现有策略改进决策，为后训练提供环境，并判断想象的未来是否可以被信任。相同的预测基板可以在预训练、后训练和推理中重复出现，每个阶段都有不同的失败模式。这种系统视角补充了直接动作接口分类法，并促使了第六节中处理生命周期阶段的动机。图4：同一个预测基板可以在预训练、后训练和推理阶段重复使用，但不同阶段关注的风险和评估标准并不相同。来源：原论文配图中文标题化。

VI. Lifecycle Roles: Pretraining, Post-Training, and Inference / 生命周期角色：预训练、后训练与推理

相同的预测模型可以在多个阶段提供服务。世界模型的能力不仅在静态意义上重要，而且在其何时以及在机器人学习流水线的哪个阶段被激活方面也重要。我们沿着生命周期来组织之前描述的角色，将其分为三个主要阶段：预训练、后训练和推理。每个阶段对世界模型提出不同的要求，并面临不同的失败模式。

预训练：作为预测先验的世界模型

在预训练阶段，世界模型在特定任务数据可用之前提供对世界结构和动力学的广泛先验。这种先验可以通过自监督视频预训练、大规模潜在学习和联合世界-动作建模获得。目标不是为特定的下游任务优化，而是学习表示和动力学，这些可以转移到一系列后续操作任务。在此阶段，模型通常在多样化但未必与任务相关的数据上训练，面临过拟合抽象或不相关的视觉结构的风险。预训练世界模型的价值在于它们如何加速下游学习，通过提供结构化的初始表示或有利于任务导向特征学习的预测目标。

后训练：作为数据引擎和模拟器的世界模型

在后训练阶段，世界模型提供任务特定的监督、合成经验或学习环境。在此，一个特定下游任务已经被识别，并且世界模型产生针对该任务的数据、奖励或改进信号。这对应于基础设施角色如合成经验生成、学习环境和结果评分。挑战在于，生成的体验必须与任务相关且可执行，而非仅仅是视觉上有吸引力。模型误差可能注入到后训练信号中，导致次优或利用性的行为。在此阶段，可靠性决定后训练是否增强了真实世界性能或仅仅掩盖了基础策略中的弱点。

推理：作为在线推理器和验证器的世界模型

在推理阶段，世界模型支持在线决策制定，通过评估候选动作、搜索未来展开或验证结果。在此，模型必须快速且鲁棒地实时运行。这对应于基础设施角色如基于搜索的动作评估和结果验证。推理阶段对延迟最为敏感。高维展开成本可能使模型在实践中过于缓慢。验证变得更加紧迫，因为分配误差可以将策略引导到不可行或不安全的行动方案。相位引入的不确定性（如感知误差和分布偏移）使得校准成为关键考虑因素。

生命周期规划启示

在每个生命周期阶段，世界模型应解决不同的功能瓶颈，并面对不同的失败模式。预训练模型在广泛先验和下游可转移性方面有价值。后训练模型要求任务相关性和可靠性。推理模型要求速度和校准。相同的世界模型可能在这些角色中表现出差异很大的性能。当在不同阶段采用世界模型时，评估应考虑其特定的功能背景。

VII. Datasets / 数据集

本综述回顾了34个常用于训练、评估或压力测试机器人操作世界模型的主要数据集。数据集的选择取决于世界模型的角色——是作为预测器、模拟器还是学习环境——以及其操作情景。一些数据集专注于桌面操作（如RoboTurk、RLBench、MetaWorld），提供广泛的任务族，但通常限于特定的传感器布置。其他数据集提供真实世界经验（如Bridge Data、DROID），捕捉更真实的物理，但限制在较小的扩展性和多样性。还有一些提供互联网规模的真实世界视频（如Something-Something、Epic Kitchens），突出动作条件的视觉预测，但缺乏机器人特定的动作标注。数据集之间的关键区别在于提供的监督类型：状态信息、动作标签、任务目标或语言描述。用于通用系统如集成世界-动作模型或视觉语言行动系统的数据集趋向于更大的规模和更多的多样性，牺牲控制特定变量。重点在于匹配世界模型的功能角色与数据覆盖、动作条件和场景可变性。未来工作的方向包括构建包含接触状态、力信息和机器人特定物理后果的数据集，专门用于评估操作物理学的预测模型。

VIII. Evaluation / 评估

评估机器人操作的世界模型提出了几个超越标准预测保真度度量的挑战。传统指标（如PSNR、SSIM、LPIPS、FVD）评估视觉相似性，但未捕捉动作相关性、接触一致性或对下游任务的影响。本综述综合了涵盖三个方面的评估协议：预测保真度、下游任务性能以及模拟器可靠性。预测保真度评估模型在视觉或潜在层面上准确预测未来的能力。关键是生成内容的动作条件一致性。下游任务性能衡量世界模型的预测是否导致更好的机器人控制——在规划、决策或后训练方面。模拟器可靠性评估学习环境在多大程度上保持政策排名、支持政策改进以及抵抗博弈或利用。有效的评估将这三个维度结合在一起，特别是在闭环环境中，以此捕捉阻碍操作世界模型实际部署的失败模式，例如幻觉、动作对齐不足和物理不一致。评估的开放挑战包括标准化动作对齐、接触建模和长期想象鲁棒性的基准测试。目前缺乏一个广泛接受的基准测试来明确隔离这些预测操作系统的特定弱点。

IX. Conclusion / 结论

论文最后强调，机器人操作世界模型正在从任务特定的动力学预测器，转变为机器人学习的通用预测基础设施。要理解这一转变，不能只问模型架构是什么，而要同时问三个问题：它预测哪一种未来表示，预测如何连接到动作，预测在预训练、后训练还是推理阶段发挥作用。这一视角也解释了为什么许多表面相似的方法实际承担不同功能。一个视频生成器可以是视觉子目标生成器，也可以是合成经验引擎；一个潜在动力学模型可以用于想象式策略学习，也可以作为搜索中的快速评估器；一个VLA系统内部的预测模块既可能是动作生成的一部分，也可能是可验证的中间计划。判断其价值的标准不应只是预测是否逼真，而应是预测是否可行动、物理可信、校准良好，并与使用它的策略、规划器、仿真器或验证器对齐。论文指出，未来最关键的挑战是“干预下的评估”。现有指标仍难以刻画接触、力、形变、长期物理一致性和失败恢复能力。视觉指标可能奖励看起来合理但不可执行的未来；任务成功率又可能掩盖世界模型本身的错误。更可靠的评估需要把预测保真度、动作对齐、闭环控制收益、物理可执行性和安全验证结合起来。

对研究和工程实践的启发

对于研究者而言，这篇综述提供了一个很实用的分类框架：如果目标是高层规划和可解释子目标，图像/视频预测可能更自然；如果目标是样本效率和控制优化，潜在动力学更合适；如果任务依赖接触、形变和几何约束，则需要更强的3D/4D或物理信息表示。表示选择不是审美问题，而是由世界模型在系统中的角色决定。对于工程落地而言，最值得借鉴的是生命周期视角。预训练阶段看重可迁移预测先验，后训练阶段看重合成数据和模拟器能否提升真实策略，推理阶段则看重速度、校准和在线验证能力。把这三个阶段混在一起评价，容易高估世界模型的实际可用性。真正可部署的机器人世界模型，必须在对应阶段证明自己能减少真实交互成本、降低失败风险，并保持与机器人动作空间和传感器条件的一致性。

成为VIP会员查看完整内容