近年来,视觉-语言-动作(VLA)策略的快速发展推动了机器人操作、导航和自动驾驶的通用化,但这类“反应式”策略在复杂物理环境中往往缺乏对长期后果的推理能力,难以处理累积误差和时序信用分配问题。业界逐渐意识到:仅靠从观察到动作的直接映射是不够的,智能体需要一个能预测“世界如何随自身行为演变”的显式结构——这正是世界模型(World Model)的核心价值。然而,由于世界模型在架构、功能角色和具体应用领域上的分散发展,相关文献呈现出明显的碎片化,研究者难以快速把握整体脉络。 为此,由Bohan Hou、Gen Li、Jindou Jia等来自MIT、清华、伯克利、慕尼黑工大、ETH、牛津等机构的研究者联合撰写了这篇全面综述。论文从机器人学习的角度出发,将世界模型的技术路线清晰地划分为三大功能角色:与世界策略的耦合、作为模拟器支持强化学习和评估、以及机器人视频世界模型的生成能力演进。文章不仅系统梳理了数百篇文献,还专门将导航和自动驾驶纳入分析,并整理了代表性数据集和评估协议。 这篇综述的最大价值在于提供了一个统一的分类框架,帮助读者澄清了当前混乱的术语和范式。无论你是刚接触世界模型的新手,还是希望找到未来研究方向的从业者,这篇文章都能为你提供扎实的知识基座和清晰的研究路线图。
世界模型是环境如何在动作下演化的预测表示,已成为机器人学习的核心组成部分。它们支持策略学习、规划、模拟、评估和数据生成,并随着基础模型和大规模视频生成的发展而快速进步。然而,现有文献在架构、功能角色和具身应用领域方面碎片化。本文从机器人学习视角全面回顾世界模型:探讨如何与策略耦合、如何作为强化学习和评估的模拟器,以及机器人视频世界模型从想象生成到可控、结构化、基础规模的进展。还联系导航和自动驾驶,总结代表性数据集、基准和评估协议。整体上,本综述系统回顾了快速增长的世界模型文献,理清了关键范式和应用,指出了主要挑战和未来方向。
当前主流的视觉-语言-动作(VLA)策略在复杂物理环境中存在长期推理能力不足、时间信用分配困难以及累积误差下的鲁棒性差等问题。论文指出,这些局限并非仅仅来自动作预测能力的不足,更根本的原因是缺乏一个能显式预测“世界将如何随智能体行为演变”的结构。传统反应式策略直接映射从观察到动作,而世界模型则通过建模状态转移,赋予智能体三种核心能力:预见(foresight)——提前评估动作后果;想象驱动规划(imagination-driven planning)——在想象空间中对比候选行为;数据扩增(data amplification)——生成合成轨迹以丰富训练数据。这三项能力正是世界模型区别于一般感知预测器的关键。 论文梳理了世界模型的思想谱系:从1960年代认知科学中提出的内部模型概念(Miller等),到1970年代控制理论中的基于模型决策(Bryson & Ho),1980年代经典机器人规划(Lozano-Perez),再到现代机器学习中的模型强化学习(Nguyen & Widrow;Jiang等;Zhu等)以及大规模生成模型(Ali等;Guo等;Jiang等;Jang等)。本文的目标并非给出一个狭隘的形式定义,而是从机器人学习视角出发,聚焦于“如何让预测模型服务于策略学习、规划、模拟、评估和数据生成”,从而构建一个统一的理解框架。
Figure 1 Overview of the organization of this survey. Section 3 reviews how world models are coupled with robot policies from an architectural perspective. Section 4 examines worl... 来源:原论文 PDF 第 2 页。
Figure 2 Temporal evolution of representative works on world models for robotic policy learning. The upper branch summarizes the progression of worldmodelforpolicymethods, showing... 来源:原论文 PDF 第 3 页。
论文围绕世界模型在机器人学习中的三种功能角色组织全文,分别对应三个主要章节。下面逐一展开。
本节从架构角度探讨世界模型如何与机器人策略耦合。作者归纳了五种典型的组合方式:
每种子类别下,论文都列举了代表性工作并分析了其利弊。虽然原文未给出定量比较,但通过分类清晰展示了设计空间中的主流选项。 Figure 3 Representative architectural paradigms for using world models as policies. (a) IDM-style. A video generation model first predicts future observations, and an inverse dyna... 来源:原论文 PDF 第 10 页。
Figure4 Two MLLM-based routes for internalizing world modeling into policy learning. (a)UnifiedVision-Language-Action model. A unified multimodal model jointly processes observati... 来源:原论文 PDF 第 13 页。
本节从应用角度出发,关注世界模型如何充当可学习的模拟器,支持强化学习(RL)和评估。 用于强化学习:世界模型可以作为环境模型来替代真实物理环境,让智能体在其中进行想象滚动(imagination rollout),从而高效收集互动数据。这类方法(如Dreamer、Iso-Dream、EfficientZero)已在Atari和DMControl等基准上取得了显著效果。论文重点讨论了世界模型在RL中的两种角色:作为用于策略优化的世界模型(model-based RL),以及作为用于规划的无模型但基于预测的想象器(如MPC)。 用于评估:当真实环境难以获取或代价高昂时,世界模型可以提供一个低成本、可重复的评估平台。特别是对于机器人操作和自动驾驶,基于世界模型的模拟器可以快速生成多种场景,用于测试策略的鲁棒性和泛化能力。论文提到了SimGPC、World-Env等近期工作,它们尝试用世界模型取代传统物理仿真器。 该节还联系了导航和自动驾驶领域,介绍了在这些领域中世界模型作为模拟器的应用实例(例如在nuScenes、CARLA平台上的工作),但原文未给出统一实验。
本节按照世界建模能力从低到高的顺序,梳理了机器人视频世界模型的技术演进。
每个子阶段,论文都概述了技术路线、主流数据集(如Bridge Data、RoboNet、MimicGen)以及评估指标(如FVD、动作条件一致性、物理合理性)。同时指出了当前开放挑战,包括模型的可伸缩性、长期一致性、以及环境交互性的不足。
本文是综述论文,原文未进行新的统一实验。但是,在各节中,作者系统总结了相关工作中使用的实验设置、数据集和评估指标:
总体而言,综述通过引用大量已有文献的实验结果,构建了一个实证全景,但读者需要自行查阅原文以获取具体数值。
原文未设置独立的结论章节,但全文通过对世界模型文献的系统梳理,给出了重要的总结性观点。 主要贡献:
局限:
启发与未来方向: