【综述】世界模型：架构、方法、推理与应用全景

世界模型正在成为通向通用智能的一条核心路线：它不只是让模型“看见”当前输入，而是让模型学习环境如何演化、行动会带来什么后果，以及未来可能出现哪些状态。换句话说，世界模型试图在机器内部建立一个可预测、可想象、可规划的环境模拟器。正因为如此，它同时连接了强化学习、机器人、自动驾驶、视频生成、多模态智能体、科学建模和医学影像等多个方向。这篇综述的价值在于，它没有只围绕某一种算法或某一个应用展开，而是提出了一个多轴分类框架：从架构看，世界模型可以按表示形式、动力学建模、模态、学习范式和下游用途划分；从方法论看，它覆盖状态空间模型、Transformer、扩散模型、物理信息模型和语言增强多模态系统；从推理看，它强调想象式规划、潜在策略学习、反事实推理和不确定性下规划；从应用看，则横跨机器人、自动驾驶、视频预测、多模态智能体、强化学习、科学建模、医学、教育测量和商业金融。本文按原论文结构展开，并保留一级标题的英文与中文对照。为了便于公众号读者快速建立全局图景，本文增加了导读，并补充三张中文综述配图：第一张概括论文的四轴分类框架，第二张解释世界模型的关键组件与信息流，第三张说明基于想象力的潜在空间规划。阅读时可以抓住一个主线：世界模型的本质，是把“直接行动”变成“先在内部模拟，再基于模拟结果行动”。

Abstract / 摘要

世界模型，即学习环境结构及动力学的内部模拟器，已成为追求通用人工智能的核心范式，能够让智能体在所学表示中进行预测、规划和推理。尽管在强化学习、机器人、自动驾驶和视频生成等领域取得了快速进展，该领域仍缺乏一个能够整合其多样化架构选择、训练方法、推理机制和应用场景的统一框架。本文通过引入一个全面的多轴分类法来填补这一空白，该分类法沿四个互补维度组织：(i) 架构，涵盖表示格式、动力学公式、输入模态、学习范式和下游应用；(ii) 方法论家族，包括状态空间与循环方法、基于Transformer的模型、基于扩散的生成器、物理信息网络以及语言增强的多模态系统；(iii) 推理策略，涵盖基于想象力的规划、潜在策略学习、反事实推理和不确定性下的规划；(iv) 应用领域，涵盖机器人、自动驾驶、视频预测、多模态智能体、强化学习、科学建模、医学成像、教育测量以及商业与金融。追溯该领域从早期认知科学基础到里程碑系统（如PlaNet、Dreamer家族、MuZero、Sora、Cosmos和Genie）的发展历程，本文考察了这些维度如何相互作用，并强调了链式思维推理与世界模型想象力近期融合的趋势。本文跨这些轴回顾了评估协议和基准，识别了持续存在的挑战——包括复合预测误差、模拟到现实迁移和碎片化评估实践——并概述了朝向统一多模态世界模型、基础规模交互式模拟器以及在安全关键领域安全部署的未来方向。通过在一个单一跨学科框架内综合这些发展，本调查为推进世界模型研究迈向更通用、更稳健、更有能力的自主系统提供了结构化路线图。图1：世界模型综述的四轴分类框架。该图根据原论文图1 与全文组织结构重绘，概括架构、方法论家族、推理策略和应用领域四个互补维度。来源：根据原论文内容中文重绘。

1 Introduction / 引言

对通用人工智能的追求长期以来激励着研究者开发智能系统，这些系统不仅能够从多模态数据中识别有意义的模式，还能获得对其运行环境的一致且因果性的理解。这一抱负的核心是世界模型的概念——一个捕获环境动力学并支持正向和反事实推演以进行感知、预测和决策的内部模拟器。这一思想的智力基础远远超出了当代机器学习。在认知科学中，长期以来人们认识到，人类通过将外部世界抽象为简化元素和关系结构来解读外部世界。这一观点在Johnson-Laird的心理模型理论中得到阐述，并与人工智能领域的早期发展产生共鸣，例如Minsky在1970年代提出的框架表示。简而言之，这些视角凸显了对构建能够推理复杂环境的内部表示的长期跨学科兴趣。虽然这些早期框架主要是符号化的，但深度学习的出现为将世界模型概念操作化开辟了新时代。在强化学习中，Ha和Schmidhuber通过展示生成神经网络能够以无监督方式学习环境的紧凑时空表示，重新激发了这一思想。值得注意的是，他们的工作表明，智能体甚至可以在完全由这些学习表示派生出的内部生成模拟中进行训练。更近期，LeCun将世界模型确定为自主智能的核心架构组件，提出世界模型应推断关于世界当前状态的缺失信息，并根据想象的行动序列预测可能的未来状态。自这些开创性贡献以来，该领域在范围和雄心方面迅速扩展。在基于模型的强化学习中，Dreamer系列证明了智能体可以完全通过潜在想象来学习复杂行为，使用统一的算法框架从简单的控制任务扩展到多样化的领域。与此同时，DeepMind的MuZero在没有获取显式环境规则的情况下，通过学习仅预测规划相关数量的隐式模型，在多个具有挑战性的领域实现了超人类性能。在基于模型的强化学习之外，OpenAI的Sora引入了大规模视频生成作为世界模拟的一种形式，引发了关于此类模型是否构成真正世界模型的辩论。来自Meta、DeepMind和NVIDIA的基础模型方法进一步证明了大规模自监督预训练可以产生可操作的、分别用于机器人规划、交互式环境生成和物理AI的世界模拟器。这些努力与LeCun的更广泛愿景一致，即一个以可配置预测世界模型为中心的模块化认知架构，通过他提出的联合嵌入预测架构训练，为纯粹生成方法提供了一个理论上有根据的替代方案。总的来说，这些发展已将世界模型从一个基于模型强化学习的利基话题转变为追求通用人工智能的核心支柱。在这个不断扩展的领域中，一个特别有前景的发展是链式思维推理与世界模型的整合。传统的链式思维将推理表示为显式的自然语言标记序列，这个过程可能在计算上昂贵，且受限于离散文本表示的相对较低信息密度。最近的研究开始将这个推理过程转移到潜在空间，其中世界模型为多步深思提供底层基质。例如，Coconut引入了连续思维表示，直接在潜在空间实现广度优先推理。类似地，LCDrive通过将动作提议标记与世界模型潜在预测交错在一起，整合了链式思维式推理与行动规划，允许代理在提交到轨迹之前模拟反事实未来。基于此方向，FutureX提出了一种自动思考机制，仅在场景复杂性需要审慎推理时才动态激活潜在世界模型。总的来说，这些方法表明，世界模型可能不仅作为预测模拟器，而且作为推理引擎本身发挥作用——有可能用基于接地、时空的想象链取代语言思维链。值得注意的是，世界模型日益增长的重要性也源于对基于Transformer架构构建的大型语言模型根本局限性的日益认识。尽管像GPT-4和推理增强系统如o1这样的模型在语言理解和代码生成任务中取得了显著成功，但这些系统主要运行在文本标记的离散且相对低维的空间中。因此，它们缺乏对连续且高维物理世界的接地理解。与此同时，大型语言模型通常缺乏持久的世界状态表示，因果推理能力有限，并且难以进行长时域规划——而这些能力是生物体通常具备的。这一差距反映了Moravec悖论：尽管诸如语言处理和象棋对弈之类的高级认知任务对机器而言似乎可行，但经过数十亿年生物进化锤炼的感觉运动能力却仍然难以复制。相比之下，世界模型旨在通过学习预测物理或模拟环境中行动的结果来解决这些局限性，从而构建对象动态和时间演化的内部表示。通过使智能体能够模拟可能的未来并评估替代行动序列，世界模型为在复杂环境中进行规划、推理和自适应决策提供了基础。在这一方向上日益增长的机构投资——例如先进机器智能的建立、DeepMind对Genie模型家族以及NVIDIA Cosmos平台的持续开发——标志着一种新兴共识：人工智能的下一个前沿在于构建能够建模并与世界本身交互的系统。然而，随着研究活动加速，世界模型吸引了来自日益多样化社区的关注，一个根本问题依然存在：到底什么构成一个世界模型？在基于模型的强化学习中，该概念通常狭义地定义为一个学习到的转移函数ˆT(s_t+1|s_t, a_t)与奖励预测器ˆR(r_t|s_t, a_t)的耦合。然而，在更广泛的人工智能文献中，世界模型越来越多地被视作能够支持反事实推理、因果推断和分层规划的通用模拟器。这种观点的多样性导致了碎片化的研究格局，从事潜在动力学模型、生成式视频预测、以对象为中心的表示和语言接地规划的不同社区往往相对孤立地开发他们的方法。重要的是，各种近期综述已开始组织这个快速发展的领域。例如，Ding等人从理解与预测的角度审视世界模型，而Li等人则提出针对具身人工智能的三轴分类法。额外的领域特定综述探索了在自动驾驶、机器人操作和3D/4D场景建模中的应用。尽管如此，现有的综述通常关注特定的方法论视角或应用领域，并未同时在一个统一框架内解决架构范式、方法论家族、推理机制和应用情境的全部光谱。世界模型正在开辟未充分探索的领域，包括医学成像和教育测量——这进一步凸显了对一个全面、跨学科综述的需求。为填补这一空白，本综述提供了一个结构化的、沿若干互补轴组织的全面回顾：

架构：关键的架构设计选择，包括表示类型、动力学建模方法、输入模态、学习范式和下游用例。
方法论家族：主要的建模范式，如状态空间和循环潜在模型、变分和生成方法、基于Transformer的架构、以对象为中心和组成模型、物理信息模型以及语言增强的多模态系统。
推理策略：决策制定和规划的机制，包括基于想象力的规划、在所学模型内的策略学习、反事实推理、长时域和分层规划以及不确定性下的规划。
应用领域：代表性应用领域，包括机器人、自动驾驶、视频预测和场景理解、多模态智能体、强化学习和游戏、科学建模、医学成像和视频分析以及教育测量。

图1以三个层次概述了这一格局。顶部：概念分类法将世界模型划分为两个互补视角——外部世界的隐式表示，涵盖决策制定和世界知识学习；物理世界的未来预测，涵盖视频生成和具身环境。中部：里程碑贡献的历史时间线，从Minsky的框架系统理论，经过Ha和Schmidhuber的神经世界模型、LeCun的JEPA、大型语言模型中的世界知识，到最近的包括Sora和UniSim在内的大规模模拟器。底部：代表性应用领域部署——DayDreamer用于机器人，Smallville用于社会模拟，Vista用于自动驾驶——展示了世界模型现在支持的部署环境的广度。此外，本文还进一步审视了评估协议和基准，识别了当前方法面临的关键挑战，并概述了未来研究的有希望方向。通过提供一个统一的、多轴视角，本综述旨在既为进入该领域的研究者提供全面参考，也为将世界模型推向稳健、通用的自主智能提供路线图。图2：世界模型的关键组件与信息流。世界模型通过感知表示、记忆状态、动力学预测和规划控制，把真实交互转化为可在内部模拟的决策循环。来源：根据原论文背景部分中文重绘。

2 Background and Conceptual Foundations of World Model / 背景与世界模型概念基础

世界模型是先进的智能模型，它使智能体能够形成其环境的紧凑表示，并预测该环境如何随时间演变。在人工智能中，现代观念与基于模型的强化学习和生成式潜在动力学建模密切相关，其中智能体不仅学习如何行动，还学习世界如何响应行动而变化。从概念上讲，世界模型植根于更广泛的预测性智能观。智能系统并非仅对当前输入做出反应，而是受益于预测未来状态、估计行动的后果以及利用内部模拟来指导行为。这一思想与认知科学、神经科学和强化学习中的早期传统，包括预测处理、预测编码和预测表示，有着紧密联系。以下各节介绍了世界模型的关键背景、概念架构和基础。

定义与基本概念

在人工智能中，世界模型是一个内部的预测模型，它捕捉环境如何随时间演变，以及这种演变如何依赖于智能体的行动。Schmidhuber早期的一个公式描述了一个构建模型的控制系统，其中控制器配备了一个额外的模块，即世界模型，用于从先前的输入-行动对中预测未来的输入。在当代机器学习中，这个术语已有所扩展，同时保留了其核心思想：世界模型是环境动力学的学习表示，支持预测、模拟和决策。Ha和Schmidhuber的神经世界模型框架通过证明智能体可以学习环境的压缩时空表示，然后使用它们来支持下游控制，使这一公式在现代深度学习中特别有影响力。为了使这个定义精确，令o_t表示时间t的观测，a_t表示行动，r_t表示奖励，s_t表示旨在总结预测未来所需信息的潜在状态。那么，一个世界模型可以写成一个参数化的预测系统，参数为θ，它近似环境动力学： p_θ(s_{t+1}, o_{t+1}, r_t | s_t, a_t) 在完全可观测设置中，s_t可能与真实环境状态一致。在部分可观测设置中，然而，模型必须从历史h_t = (o_≤t, a_<t)推断一个潜在的、类似信念的状态，例如通过编码器的形式： s_t ∼ q_θ(s_t | h_t) 这一符号强调了一个关键点：世界模型不需要完全复现外部世界；相反，它必须表示那些对有用预测和控制来说足够的经验方面。因此，世界模型的目标不仅仅是为了重构观测，而是学习使未来结果可预测的状态表示。在简单情况下，这可能直接涉及预测下一个观测。在更现实的场景中，尤其是在部分可观测性下，模型必须维护一个潜在状态，该状态充分总结过去的观测和行动，以预测未来的观测、奖励和其他与任务相关的信号。这一视角有助于解释为何后来的工作从原始观测预测转向潜在动力学建模。例如，PlaNet在紧凑的潜在空间中从图像学习环境动力学，并明确结合了确定性和随机性转移组件，反映了有用世界模型必须跟踪持久结构和多个可能未来不确定性的洞见。Dreamer将这一工作线扩展，不仅将学习到的潜在动力学视为预测模型，也将其作为通过想象推演进行行为学习的基质。大多数世界模型因此包含几个反复出现的组件。首先，它们包含一个感知或表示模块，将高维感官输入压缩成一个易处理的状态表示，例如潜在向量或标记序列。其次，它们包含一个以行动为条件的动力学模型，该模型预测此潜在状态如何随时间演变。第三，许多系统集成了任务级头部，如奖励或持续预测器，因为控制不仅需要估计世界看起来会是什么样，还需要估计想象的轨迹是否可取或终结。Ha和Schmidhuber使用变分自编码器进行视觉压缩和使用循环动力学模型进行时间预测，实例化了这种分解。PlaNet和Dreamer将相同的蓝图精炼成适用于规划和策略优化的潜在状态空间模型，而Genie则将这一思想扩展为基于时空视频分词器、自回归动力学模型和学习潜在行动接口构建的生成式交互环境。从功能角度看，世界模型的核心承诺在于想象力。一旦模型可以模拟候选行动下可能的未来轨迹，智能体就可以使用这些想象轨迹来评估计划、改进策略，或在所学环境而非真实环境中部分或完全地训练。这就是为什么世界模型与基于模型的强化学习联系如此紧密。Ha和Schmidhuber证明了策略可以在模型生成的环境内训练，然后转移回实际任务。Dreamer通过纯粹在潜在想象中学习行为，在紧凑的潜在空间中通过想象轨迹传播价值梯度，推进了这一思想。Genie通过从无标签互联网视频中引入可行动控制的虚拟世界，将相同的概念扩展到狭窄任务模拟器之外，作者将其描述为“基础世界模型”。在这些变体中，统一的原则是模型充当反事实交互的内部沙盒。形式上，如果一个策略π(a_t|s_t)在所学动力学内部行动，该模型可以为一个时域H生成想象推演：s_t, a_t, s_{t+1}, a_{t+1}, ..., s_{t+H}，其中行动从π中采样，转移从p_θ(s_{t+1}|s_t, a_t)中采样。规划或策略学习随后可以在模型内部优化期望回报：J(π) = E_{p_θ,π}[∑γ^k r_{t+k}]，其中γ∈[0,1)是折扣因子。该方程捕捉了世界模型的操作性角色：它将未来的交互转变成一个可微分的或至少可模拟的对象，可以在真实环境中执行行为之前对其进行搜索、优化或评估。定义世界模型时，有几个概念区分是有用的。一个是观察空间模型与潜在空间模型之间的区分。观察空间模型试图直接预测未来像素、帧或传感器读数，而潜在空间模型则预测压缩的隐藏状态，后者通常在计算上更高效，对规划更有用。第二个区分是确定性世界模型与随机性世界模型。确定性模型通常更简单，但它们可能会模糊真正不确定的未来；随机性模型更适合捕捉模糊性和多模态性。第三个区分涉及特定任务与通用世界模型。早期系统通常为规划或控制而在单一环境中训练，而更新的系统如Genie则寻求从大规模、弱监督数据中学习广泛可重用的、可行动控制的生成式环境。这些区分很重要，因为它们塑造了模型能表示什么、如何训练以及其预测如何被使用。同时，世界模型并不等同于完美的模拟器或完整的现实本体。其价值取决于它是否捕捉了环境中对预测和控制至关重要的方面。Ha和Schmidhuber明确指出，无监督视觉模型可能会复现视觉上细节丰富但与任务无关的结构，同时未能捕捉对成功行为至关重要的特征。PlaNet同样将学习到的动力学视为一个长期挑战，因为误差在多步预测范围内会累积，尤其是在基于图像的领域中。因此，世界模型的实践质量通常不仅通过重构保真度来判断，还要看它是否产生稳定的想象推演、支持有用的规划、提高样本效率，并泛化到训练期间观察到的确切轨迹之外。在此意义上，世界模型的核心思想是预测性抽象：模型应将经验压缩成一种形式，这种形式足够简单以便模拟，同时足够丰富以支持有效行动。世界模型也可以更简洁地描述为一个学习到的函数f_θ，它近似环境的转移动力学：ŝ_{t+1}, r̂_{t+1} = f_θ(s_t, a_t)，其中s_t表示时间t的状态，a_t是采取的行动，ŝ_{t+1}是预测的下一个状态，r̂_{t+1}是预测的奖励。在实践中，世界模型通常在一个学习到的潜在空间z_t = enc(o_t)中运行，而不是直接在原始观测o_t上运行，从而实现紧凑的表示和易处理的长时域预测。此外，三个属性将世界模型与通用预测模型区分开来：

行动条件化：模型预测环境如何响应特定行动而演变，从而启用反事实推理。
多步推演：模型可以自回归地应用以生成任意长度的轨迹，支持规划和模拟。
对决策的有用性：模型的预测被用于下游——策略优化、规划、数据增强或安全验证——而不是作为其自身目的。

世界模型的关键组件

大多数现代世界模型在部分可观测马尔可夫决策过程的框架内运行，涉及状态空间、行动空间、转移函数、奖励函数、观测空间、发射函数和折扣因子。世界模型近似转移函数，并可选择性地近似奖励函数和发射函数。我们将世界模型的多个关键组件总结为以下四个功能模块： 编码器。 编码器将原始的高维观测（图像、点云、传感器读数）映射到一个紧凑的潜在表示：z_t = q_ϕ(z_t | o_≤t, a_<t)。值得注意的是，这个压缩步骤至关重要，因为原始观测往往维度太高，无法支持易处理的多步预测。编码器可以是确定性的，例如卷积神经网络，也可以是随机性的，例如变分自编码器中的后验网络。例如，Ha和Schmidhuber使用基于变分自编码器的编码器将64×64图像帧压缩成32维潜在向量。类似地，Dreamer模型家族采用一个以观测历史为条件的后验编码器，来推断潜在状态的确定性和随机性组成部分。 动力学模型。 动力学模型根据当前状态和行动预测下一个潜在状态：ẑ_{t+1} = p_θ(ẑ_{t+1} | z_t, a_t)。重要的是，动力学模型构成了世界模型的核心。在基于RNN的架构中，它通常被实现为循环状态空间模型，该模型将潜在状态分解为一个保持长期时间依赖性的确定性循环组件h_t，以及一个捕捉环境不确定性的随机性组件z_t。在基于Transformer的架构中，动力学模型通常被公式化为一个自回归Transformer，它预测离散潜在序列中的后续标记。在基于扩散的方法中，未来状态通过迭代去噪过程生成。此外，在高层次上，当前世界模型可以被理解为一个由三个紧密耦合组件组成的系统：视觉模型、记忆模型和控制模型。总之，这些组件使智能体能够感知其环境、保留和组织过去信息，并基于预测的未来结果选择行动。这种分解尤其有用，因为它阐明了世界模型如何将原始感官输入转化为支持推理、规划和决策的结构化内部表示。视觉模型负责感知和表示学习。其主要角色是将高维感官观测，如图像、视频帧或其他原始输入，转化为一个紧凑且信息丰富的潜在表示。在许多现代世界模型中，该组件使用卷积神经网络、变分自编码器、视觉Transformer或分词器来实现，这些方法将观测压缩成潜在向量或离散标记。视觉模型的重要性在于其能够过滤掉不相关的感知细节，同时保留对下游预测和控制至关重要的特征。如果没有这种压缩，直接在原始观测空间中建模未来轨迹通常在计算上不可行且统计效率低下。记忆模型是架构的时间和预测核心。其功能是维护过去经验的表示，并建模环境的潜在状态如何随时间演变。该组件被称为“记忆”，因为它为系统提供记忆：它将当前观测与历史上下文整合，允许智能体推断隐藏结构、跟踪时间依赖性并表示未来状态的不确定性。在循环世界模型中，记忆模型通常使用循环神经网络或循环状态空间模型实现，这些模型将确定性记忆状态与随机性潜在变量相结合。在更近期的架构中，Transformer和基于扩散的序列模型也被用于捕获长范围时间依赖性和生成未来潜在轨迹。记忆模型是允许世界模型超越静态感知、作为环境动力学的预测模拟器发挥作用的关键。控制模型是决策制定组件。给定由视觉模型产生并经记忆模型更新的潜在状态，控制模型确定应采取哪一行动以最大化期望奖励、实现特定目标或满足任务约束。在强化学习环境中，该组件可能采取策略网络、价值函数或评估由世界模型生成的想象未来推演的规划模块的形式。更广泛地说，控制模型将预测知识转化为有目的的行为。其有效性不仅取决于学习策略的质量，还取决于其他两个组件提供的感知和时间表示的保真度。这三个模块并非独立；相反，它们作为一个集成系统运行。视觉模型将当前观测编码为潜在状态，记忆模型根据先前的上下文更新此潜在状态并预测未来状态，而控制模型则利用这些表示来评估替代方案并选择行动。它们的交互使世界模型的核心能力得以实现：在真实环境中行动之前想象可能的未来。在此意义上，视觉模型回答了正在观察什么的问题，记忆模型解决了世界如何随时间变化的问题，而控制模型则确定了接下来应该做什么。这种三方观点也为比较不同的世界模型架构提供了一个有用的概念框架。一些系统通过强大的标记化或表示学习强调更强的视觉编码，而其他系统则侧重于更富表现力的、用于长时域预测的记忆机制。还有一些系统将更多建模能力分配给控制组件，尤其是在需要复杂规划或策略优化的任务中。尽管存在这些差异，视觉-记忆-控制分解捕获了许多基于世界模型的系统在强化学习、机器人、自主系统和科学应用中通用的结构逻辑。 奖励预测器。 奖励预测器从当前潜在状态估计标量奖励：r̂_t = p_ψ(r_t | z_t)。准确的奖励预测对于基于模型的强化学习至关重要，因为想象中的策略优化取决于预测回报的质量。MuZero证明了一个世界模型，其动力学完全在一个学习到的抽象空间中运行——预测奖励、价值和策略而从不重构观测——就足以在围棋、国际象棋、将棋和Atari游戏中达到超人类表现。 解码器。 解码器从潜在状态重构观测：ô_t = p_ξ(o_t | z_t)。解码器有两个作用：(1) 提供重构损失信号用于训练编码器和动力学模型，(2) 实现想象轨迹的可视化。然而，解码器在架构上并非必需。MuZero完全弃用了它，而基于JEPA的模型在表示空间而非像素空间中进行预测，从而规避了像素级重构的计算负担和模糊性。在这四个模块之外，一些世界模型还包含额外组件。持续预测器估计情节终止概率。折扣预测器建模时变折扣因子。DreamerV3使用symlog变换预测和分类价值表示来实现跨域通用性。

世界模型与无模型强化学习的基本区别

强化学习中的一个基本区别在于，智能体是学习环境动力学的显式模型，还是直接从奖励驱动的交互中学习行为。这一分界线将基于世界模型的方法与无模型强化学习分开，并对规划、样本效率、迁移、不确定性处理和可解释性产生重要影响。在最基础的层面，两种范式在学习什么上有所不同。世界模型方法学习预测结构——例如，在观测空间或潜在状态空间中的转移、观测和奖励动力学——以便未来轨迹可以在内部被想象或评估。相比之下，无模型强化学习通常直接从交互数据中学习策略、价值函数或两者，而无需环境的显式预测模型。在此意义上，世界模型强调学习环境如何演变，而无模型方法则强调学习哪种行动能最大化回报。这种差异自然引出第二个区别：规划与直接策略执行。学习到的世界模型可以向前推进以支持在线规划或潜在想象。PlaNet在潜在空间中执行在线规划，PETS使用学习到的动力学进行模型预测控制，Dreamer通过学习到的潜在模型中的想象轨迹改进行为，而TD-MPC则在决策时结合潜在动力学模型与轨迹优化。相比之下，典型的无模型方法如DQN、PPO和SAC通常通过学习策略的直接前向传递或基于价值的决策规则来行动，而不是通过假设的未来进行显式搜索。第三个区别涉及样本效率。世界模型方法的一个反复出现的动机是，学习到的动力学模型允许智能体通过预测、想象或规划更有效地重用真实经验。PILCO是基于模型控制中极端数据效率的经典例子，而PETS、MBPO和Dreamer则表明，在现代连续控制和视觉控制环境中，学习到的模型可以显著提高每个真实环境步骤的性能。无模型方法通过构造不利用显式的学习模拟器；相反，它们仅从真实或回放的转移中改进策略或价值函数。然而，世界模型的优势伴随着一个特征性缺陷：模型偏差。如果学习到的动力学不准确，长的想象推演可能会偏离真实环境，并诱导策略利用建模错误。PILCO明确将模型偏差作为核心问题，并通过概率动力学和不确定性感知规划来解决它，而MBPO则表明短的分支推演可以在实践中减少模型利用的有害影响。无模型强化学习避免了这种特定的失败模式，因为它不依赖环境动力学的显式多步预测，尽管它牺牲了基于模型系统可用的一些结构性杠杆。两种范式在表示学习上也存在差异。在现代世界模型架构中，潜在状态不仅被训练来支持行动选择，而且还被训练来总结环境随时间的隐藏动力学。世界模型、PlaNet和Dreamer都依赖于支持预测和想象的紧凑潜在表示，而不是纯粹的反应式控制。相比之下，在标准无模型强化学习中，学习到的表示通常仅在它们改善当前任务的策略或价值估计时才被优化。这种差异通常使世界模型的表示更自然地可重用，用于下游规划或适应。这种区别在泛化和迁移方面变得尤为重要。DARLA表明解耦表示可以改善强化学习中的零样本迁移，而模式网络则证明，环境动力学的生成式因果模型能够在结构化任务上实现比反应式基线更强的迁移和组合泛化。更广泛地说，学习到的世界模型原则上可以与新的奖励、目标或规划器配对，而无需丢弃所有先前获得的环境动力学知识。相比之下，无模型策略通常与其训练时所基于的奖励结构更紧密地耦合。另一个关键区别是对反事实和假设性推理的支持。因为世界模型指定了世界将如何在替代行动下演变，它们自然支持“如果”分析。Woulda, Coulda, Shoulda通过使用结构化因果模型从记录的经验中进行反事实策略搜索形式化了这一思想，而模式网络同样强调了用于推理未见情况的生成式因果结构。标准的无模型强化学习本身不提供评估替代未来的显式模拟器；任何此类推理都必须外部添加或通过价值估计间接近似。世界模型还可以提供更大的内部预测透明度。在世界模型和Dreamer中，研究者可以检查重构、潜在推演或想象轨迹，而模式网络则暴露了一个明确结构化的对象交互和后果生成模型。相比之下，像DQN或SAC这样的无模型策略通常更隐式地将知识编码在策略和价值参数中，这可能使事后解释更加困难。进一步的区分涉及不确定性。PETS使用概率集成来捕捉学习动力学中的不确定性，而PILCO通过高斯过程动力学直接建模不确定性；更一般地说，近似贝叶斯技术如蒙特卡洛dropout为深度模型中的预测不确定性估计提供了实用途径。无模型强化学习也可以推理不确定性，但通常是通过价值估计中的不确定性，而不是未来世界轨迹上的显式不确定性；例子包括用于深度探索的Bootstrapped DQN和用于学习回报分布的分位回归。因此，世界模型中的不确定性通常更直接地与预测和规划相关联。尽管存在这些对比，世界模型与无模型强化学习之间的界限并非绝对。许多强大的现代智能体是混合的。Dreamer将学习到的世界模型与潜在想象中的行动者-评论家学习相结合，MBPO使用学习到的模型为离策略学习提供合成数据，TD-MPC将潜在动力学与价值学习相结合用于控制，而SPR则展示了预测性潜在目标可以显著改进原本是无模型的智能体。因此，现代格局更应被视为一个连续谱：世界模型方法将预测和内部模拟置于控制的核心，而无模型方法则将直接回报优化置于核心。总之，根本区别在于，世界模型学习环境的一个内部预测性解释，并将其用于想象、规划或推理，而无模型强化学习则学习有效行动，无需显式的环境模拟。这种差异会传播到下游属性，包括规划能力、样本效率、对模型偏差的脆弱性、迁移潜力、反事实推理和不确定性处理。

潜在空间在世界模型中的作用

现代世界模型中一个决定性的设计选择是未来预测是在观测空间（例如原始像素）还是在学习到的潜在空间中进行。大多数成功的世界模型在潜在空间中运行，这一设计选择对预测准确性、计算效率和下游任务性能具有重大影响。 潜在预测的动机。 现实世界中的观测通常是高维的，并包含大量与决策无关的信息。例如，一个64×64的RGB图像包含12,288个维度，而256×256的RGB图像则包含196,608个。预测未来每一帧的每个像素在计算上非常昂贵，并且迫使模型将容量分配给视觉上复杂但与决策无关的细节（例如纹理、光照变化）。相比之下，潜在空间预测将观测压缩成一个紧凑的表示z_t，该表示保留与决策相关的信息，同时过滤掉感知噪声，从而将维度降低若干数量级（例如从12,288维降到典型实现中的32-256维）。 确定性 vs. 随机性潜在空间。 早期的世界模型使用确定性编码器，但随机性环境需要能够捕获偶然不确定性的随机性潜在表示。Ha和Schmidhuber使用了具有高斯潜在空间的变分自编码器，其中潜在代码的随机性捕获了环境固有的不可预测性。循环状态空间模型引入了一种混合设计：一个保持时间记忆的确定性循环状态h_t，结合一个从学习到的先验或后验分布中采样的随机性组件z_t。这种双重结构已被整个Dreamer系列及许多后续模型所采用。DreamerV2进一步证明，离散的分类潜在变量在Atari游戏上优于连续的高斯潜在变量，可能是因为离散表示更好地捕获了游戏状态转变的离散性质。 连续 vs. 离散标记化。 连续潜在空间的一种替代方案是离散标记化，其中观测被映射到一个有限的学习代码词汇表。例如，IRIS使用一个VQ-VAE分词器将图像帧转换为离散标记，然后通过下一个标记预测与Transformer建模动力学。这一公式创建了与语言建模的紧密平行关系，并允许使用分类交叉熵目标进行训练。STORM采用了一种混合策略，结合了随机性连续潜在变量与基于Transformer的动力学，从而占据连续方法与完全离散方法之间的中间位置。 表示空间中的预测。 LeCun提出了联合嵌入预测架构作为像素空间预测和基于重构的潜在建模的原则性替代方案。在JEPA中，模型直接预测嵌入空间中未来观测的表示，而不是重构观测本身，并且不需要解码器。这一公式避开了像素重构的瓶颈，该瓶颈通常惩罚在任务无关细节上的错误，也避免了像素级损失相关的模态平均效应。I-JEPA验证了这种方法在图像表示学习中的有效性，而V-JEPA和V-JEPA 2则将其扩展到视频，在大规模视频理解和零样本机器人规划中展示了强大性能。 潜在空间结构与下游性能。 潜在空间的结构直接影响想象推演的质量，进而影响在想象轨迹上训练的策略的有效性。如果潜在空间未能编码决策相关因素，如对象位置、速度或接触动力学，那么即使准确的动力学模型也会生成无信息的预测。相反，一个试图保留每个感知特征的过于详细的潜在空间可能将容量浪费在无关变化上。MuZero的成功，它学习了一个完全为奖励和价值预测优化的潜在表示而没有任何重构目标，说明任务对齐的潜在空间可以优于基于重构的替代方案。DreamerV3通过使用symlog变换和分类价值分布在奖励尺度高度可变的域之间保持校准，进一步强调了精心结构化的潜在表示的重要性。尽管潜在世界模型取得了成功，仍有几个开放挑战，包括：(1) 潜在空间崩溃，其中不同的观测被映射到相同的编码，关键信息丢失；(2) 表示漂移，其中潜在空间在训练内发生变化，破坏了想象数据的一致性；(3) 解耦，即学习对应可解释物理因素的潜在维度；以及 (4) 可扩展性，即设计在环境复杂性增加时仍保持紧凑和富有表达力的潜在空间。

3 Categorization of World Models by Architecture / 世界模型架构分类

世界模型架构可以沿几个互补的轴进行分析，每个轴反映了模型如何编码观测、表示动力学、处理不确定性以及支持下游决策制定的一个关键设计维度。简而言之，这些轴为比较现有方法和理解不同架构选择之间的权衡提供了一个结构化框架。世界模型架构可以按下面描述的若干互补轴进行分类。

按表示方式分类

选择如何表示环境状态是一个基本的设计决策，它决定了世界模型保留什么信息、多步预测的易处理性以及模型可以支持什么下游任务。我们识别出六个主要的表示家族。 观测空间表示。 最直接的方法是在原始观测空间——通常是RGB像素或LiDAR点云——中预测未来观测。早期的视频预测模型在像素空间中运行，近期的基于扩散的世界模型如DIAMOND和GameNGen也是如此。优点是没有信息被丢弃：每个视觉细节都可供下游使用。缺点是维度高、模型容量被分配给决策无关的细节，以及多步预测的计算成本。像素空间模型在视觉保真度本身成为目标时最合适，例如在视频生成或游戏模拟中。 连续潜在表示。 大多数成功的世界模型通过一个学习到的编码器将观测压缩成连续潜在向量，然后在这个紧凑空间中预测动力学。Ha和Schmidhuber使用变分自编码器将64×64帧压缩成32维高斯潜在代码。循环状态空间模型引入了一个混合连续潜在状态，包括一个保持时间记忆的确定性循环组件h_t，以及一个从学习到的高斯分布采样的随机性组件z_t： h_t = GRU(h_{t-1}, z_{t-1}, a_{t-1}), z_t ∼ N(µ_θ(h_t), σ_θ(h_t)) 这种确定性与随机性的划分已被整个Dreamer系列和后续许多模型所采用。连续潜在空间通过随机性组件提供原则性的不确定性量化，并且非常适合那些状态之间平滑插值有意义的连续控制领域。其局限性是，当使用像素级解码器时，由于高斯似然假设，倾向于产生模糊的重构。 离散标记表示。 一种替代方案是将观测量化到一个有限的离散代码词汇表中，通常通过一个VQ-VAE分词器。IRIS将每个图像帧转换为一个离散标记序列，然后将动力学视为下一个标记预测——与语言建模建立了直接的平行关系。DreamerV2证明离散的分类潜在变量在Atari游戏上优于连续的高斯潜在变量，可能是因为离散表示更好地捕获了游戏状态转变的离散性质。GAIA-1将这种方法扩展到驾驶，标记化视频帧并使用一个90亿参数的Transformer自回归地预测未来标记。离散表示能够利用强大的自回归Transformer架构与分类交叉熵训练，但由于量化瓶颈而牺牲了细粒度的空间细节。 联合嵌入预测。 LeCun提出了联合嵌入预测架构作为一种原则性替代方案，它既避免了像素空间重构，也避免了显式标记化。在JEPA中，一个预测器网络将当前观测的嵌入映射到下一个观测的嵌入，目标嵌入由一个指数移动平均编码器产生：ẑ_{t+1} = predictor_θ(z_t), z_target_{t+1} = enc_θ̄(o_{t+1})。不使用解码器；损失完全在表示空间中运作。这避免了像素重构瓶颈和像素级损失中固有的模态平均。I-JEPA在图像上验证了这一点。V-JEPA将其扩展到视频，而V-JEPA 2——在超过一百万小时的互联网视频上预训练——在视频理解中达到了最先进水平，并实现了零样本机器人规划。MuZero也可以被视为在一个任务对齐的表示空间中运行，因为其潜在动力学完全是为奖励和价值预测优化的，没有任何重构目标。 结构化和以对象为中心的表示。 不是将世界状态视为一个整体的向量或标记序列，以对象为中心的模型将其分解为一组插槽，每个插槽代表一个具有自身属性的不同实体：s_t = {slot¹_t, slot²_t, ..., slotᴺ_t}。Kipf等人引入了对比结构化世界模型，该模型通过对比学习学习以对象为中心的表示，并通过一个图神经网络对插槽上的动力学进行建模。RoboDreamer将语言指令分解为原始组件，并使用以每个组件为条件的组成扩散模型。DreMa将高斯泼溅与物理模拟器结合起来进行对象级场景操作。以对象为中心的表示支持对新对象配置的组合泛化，并且更可解释，但它们随着对象数量的增加而扩展性差，并且假设环境可以干净地分解为离散实体。 3D和占用率表示。 对于具有丰富空间结构的领域，世界模型可以将环境表示为3D占用网格、体素或点云。OccWorld使用类似GPT的模型自回归地预测未来3D占用标记，用于自动驾驶，实现了空间一致的场景预测。Copilot4D通过学习通过离散扩散预测LiDAR点云，在1秒预测中实现了超过65%的Chamfer距离减少。Kong等人调查了3D和4D世界建模方法，建立了跨视频、基于占用和基于点云生成的分类。这些表示对于自动驾驶和机器人尤为有价值，因为3D空间推理对于安全规划至关重要，但它们会产生与空间分辨率成立方关系增长的显著内存和计算成本。

按动力学方式分类

理解世界模型的一个基本维度在于它们如何表示和学习动力学，即潜在状态的时间演化。这种视角不是关注架构组件，而是根据转移机制的形式对模型进行分类，通常表示为p(s_{t+1}|s_t, a_t)。这一观点对于诸如医疗健康等动力学对应于疾病进展、治疗反应和纵向生理变化的领域尤其相关。在下文中，我们根据世界模型的动力学公式对其进行分类，范围从显式参数化转移到隐式生成过程和自适应基于记忆的机制。 确定性动力学。 确定性动力学模型假设下一个状态是当前状态的单值函数，即s_{t+1} = f_θ(s_t, a_t)。这种公式简化了学习，并能够在潜在空间中高效地进行多步推演。早期的世界模型如World Models和PlaNet采用这种范式，使用循环网络传播潜在状态。后续工作如Dreamer进一步证明，确定性潜在动力学可以支持长时域想象和策略优化。然而，确定性公式本质上难以捕捉多模态未来和不确定性，常常导致平均化或过于自信的预测。这种局限性在医疗应用中尤其成问题，因为疾病轨迹表现出显著的患者间变异性。 随机性动力学。 为了解决确定性转移的局限性，随机性动力学模型引入潜在变量来表示不确定性，将转移建模为分布而非点估计。在实践中，这通常通过变分状态空间模型实现，其中潜在随机性变量捕获影响时间演化的未观测因素。现代潜在世界模型，包括PlaNet和Dreamer的扩展，将随机性潜在组件整合到其转移公式中，使其能够表示环境中的偶然不确定性。 隐式生成动力学。 隐式生成动力学不直接参数化转移密度p(s_{t+1}|s_t, a_t)，而是学习一个隐式模型，该模型可以从中进行采样或进行密度比估计。基于扩散的世界模型是一个典型例子，其中未来的潜在状态或观测通过逐步去噪过程生成。这些方法在生成高保真视频预测方面特别有效，其中显式密度建模可能会由于复杂的高维分布而难以处理。 表示空间预测动力学。 表示空间预测动力学模型预测在表示空间的转移，而不输出关于原始观测或潜在变量的显式分布。JEPA和相关方法将预测头直接放置在由编码器产生的抽象表示之上。这使得模型能够专注于预测对下游任务有用的抽象特征，而不是详尽地重建观测。 记忆增强动力学。 记忆增强动力学通过外部记忆机制扩展了标准的转移公式，允许模型维护和查询超出标准循环状态或Transformer上下文窗口的长期依赖关系。这些系统通常将标准动力学模型与可微分内存模块配对，允许模型在需要时检索相关信息。 讨论与开放挑战。 每种动力学公式都代表了易处理性、表达能力和信息保留之间的不同权衡。确定性模型在高维状态空间中可以高效训练和推演，但缺乏捕捉偶然不确定性的能力。随机性模型提供更丰富的表示，但可能更难训练且更容易出现潜在空间崩溃。隐式生成模型可以产生高度逼真的预测，但在可靠性至关重要的任务关键应用中可能难以控制。表示空间方法避免了像素级预测的不必要细节，但可能丢弃对某些下游任务有用的信息。记忆增强机制提供了扩展上下文长度的前景，但增加了架构复杂性和计算开销。当前系统的关键挑战包括确保多步推演预测在长时间范围内保持连贯性、有效平衡确定性和随机性组件以捕获不同类型的不确定性，以及开发同时保持计算效率和表示能力的动力学公式。

按模态分类

世界模型可以根据它们处理和理解输入数据的感官模态进行分类。这一分类维度因其对世界模型架构、学习目标及其适用应用领域的直接实际影响而具有根本重要性。选择输入模态决定了模型能够建模的感知现实部分，进而塑造其预测对象和方式。在下文中，我们识别了主要的模态类别。 纯视觉世界模型。 纯视觉世界模型处理视觉感官数据，主要是图像和视频。它们在所有世界模型架构中最为常见，涵盖了从早期基于CNN的架构到近期的基于Transformer和扩散的模型。这类模型的优势在于，视觉数据提供了一种无需转录即可大规模获得的环境丰富表示。这使得它们特别适用于机器人、自动驾驶和视频生成等涉及物理世界交互和理解的应用。 纯语言世界模型。 纯语言世界模型将文本作为唯一的输入和输出模态，将世界的结构和动力学建模为文本标记序列的转换。这个方向与大型语言模型的研究紧密交织。虽然LLM本身通常不被认为是世界模型，但最近的研究工作已开始探讨如何赋予它们核心的世界模型能力——特别是在需要跟踪状态变化和预测行动后果的场景中。 3D几何世界模型。 3D几何世界模型将环境的3D结构显式地纳入其表示和预测机制。它们不再从2D视图操作，而是旨在捕捉空间几何、体积占用以及对象和表面在3D中的运动。这一类别由自动驾驶和机器人操作等应用驱动，在这些应用中，精确的3D推理对于避免碰撞和精确操作至关重要。 本体感觉和触觉世界模型。 本体感觉和触觉世界模型处理来自智能体自身身体和触觉接触的感官反馈。本体感觉——感知身体部位相对位置和运动的能力——对于具有多个关节的机器人系统至关重要。触觉传感提供关于接触力、纹理和滑移的信息，这对于灵巧操作至关重要。 多模态融合世界模型。 多模态融合世界模型同时从多个感官通道接收输入，将视觉、语言、3D几何、本体感觉和触觉信息整合成统一的表示。这种方法利用了不同模态提供的互补信息——视觉提供环境上下文的丰富语义，语言允许高级指令和抽象推理，3D信息提供精确的空间推理，本体感觉和触觉则支持物理交互的精细控制。 讨论与开放挑战。 模态分类揭示了当前世界模型研究中的一个基本张力：建模通用智能所需的模态多样性与针对特定应用领域优化架构的效率之间的平衡。一个关键挑战是如何在不对齐或缺失的模态数据下学习；在许多现实世界场景中，一个或多个模态可能不可靠或缺失，系统必须能够在信息不完整的情况下稳健运行，同时利用可用数据。另一个关键问题是不同模态表示的整合。每个模态有独特的统计特性、时间分辨率和语义粒度。

按学习范式分类

世界模型可以根据指导其学习的目标、数据迁移和训练信号进行广泛分类。学习范式决定了世界模型如何从与环境或数据的交互中获取其对环境动力学的表示。这种分类至关重要，因为它直接塑造了世界模型所学表示的质量、其所需的数据量、其计算效率以及其最终的有效性。世界模型的学习涉及多个相互关联的挑战，包括定义适当的预测目标、处理部分可观测性、避免表示崩溃以及实现对新环境的泛化。不同的学习范式为代表这些挑战和权衡提供了不同的优先方案。 自监督和无监督学习。 自监督学习，特别是通过掩码预测或时间对比目标的形式，已成为一种大规模预训练世界模型的主导范式，无需依赖奖励信号或人工注释。其核心思想是利用数据本身的结构来生成监督信号。在图像领域，这可以通过遮罩图像建模或对比学习来实现，通过要求模型从上下文预测数据缺失部分来学习丰富的语义表示。将自监督学习扩展到视频和时间序列数据自然适合世界模型学习，因为这涉及在时间上预测未来帧或潜在表示。 在线基于模型的强化学习。 在线基于模型的强化学习将世界模型的学习与决策的探索交织在一起。在此设置中，智能体与其环境交互，收集用于训练或更新世界模型的真实数据，然后使用生成的数据或规划来指导其决策。关键挑战是平衡探索与利用：智能体必须收集足够多样化的数据来学习准确的动力学模型，同时利用其当前知识来做出良好的短期决策。 离线或批量学习。 离线或批量学习涉及从一个固定的先前记录的数据集中学习世界模型，无需与环境进行进一步的交互。这在实际场景中特别有价值，因为与环境交互成本高昂、危险或困难。关键挑战来自分布偏移：当智能体使用学习到的世界模型进行规划或决策时，其生成的行动可能会将状态分布推向训练数据覆盖较差的区域，导致模型预测依赖于对未见状态的不可靠外推。 基础模型范式：大规模预训练与适应。 世界模型学习的最新前沿涉及从大规模、多样化的互联网规模数据集中预训练一个通用世界模型，然后将其适应于特定的下游任务或环境。这种“基础模型”方法旨在学习一个关于世界动力学的广泛可重用表示，该表示可以快速适应新环境，而无需从头开始训练。关键挑战包括处理跨多个环境和模态的巨大变异性，设计有效的适应策略以避免灾难性遗忘，以及确保预训练捕获了足以支持下游任务的有意义的结构。 监督和模仿学习。 世界模型可以从提供的专家演示中学习，其中世界模型被训练来预测由专家政策生成的轨迹的下一个状态。这种范式直接将世界模型学习与模仿学习联系起来。通过将环境动力学建模为从状态-行动对到下一个状态的映射，专家演示的上下文可能无法覆盖典型状态分布的完整范围。 混合和多阶段学习范式。 许多最先进的系统结合了多种学习策略，以利用每种策略的优势，同时减轻其局限性。常见的模式是两阶段方法：无监督或自监督预训练来学习一般感知，然后是基于模型的强化学习来学习任务导向的动力学和策略。 讨论与开放挑战。 世界模型的学习范式代表了数据效率、泛化、探索质量和目标导向之间的根本权衡。自监督方法从大规模无标注数据中学习丰富的世界知识，但缺乏具体任务的目标。在线RL将学习与决策交织在一起，但其探索效率可能受到限制。离线学习利用已有的数据集，但遭受分布偏移。基础模型范式提供了跨域泛化的前景，但带来了与可扩展训练和有效适应相关的挑战。该领域的未来进步将依赖于开发能够无缝整合多种范式的混合方法，以发挥每种范式的优势。

按下游用途分类

世界模型可以根据其学习表示的预期下游应用进行分类。虽然所有世界模型都旨在模拟环境动力学，但其表示针对不同任务领域进行优化，这反过来影响架构选择、学习目标和评估标准。 强化学习与规划。 世界模型在强化学习中使用时，作为内部模拟器来支持基于价值的规划、策略优化或探索。关键要求是模型能够生成准确的长期回报预测，以便智能体可以有效地将价值归因于行动。这包括基于模型的强化学习，其中世界模型用于生成想象的轨迹，智能体可以通过这些轨迹来训练其策略，以及规划，其中智能体使用世界模型在行动之前搜索最佳行动序列。 自主驾驶。 在自主驾驶中，世界模型必须支持在高度动态和不确定的环境中进行安全、实时的决策。关键要求包括：处理大规模、高维传感器数据，如摄像头和LiDAR；对静态和动态场景元素进行准确预测；支持安全关键规划；以及对分布外场景的鲁棒性。 机器人与具身AI。 在机器人和具身AI中，世界模型必须使智能体能够与物理世界进行交互，经常需要精细的操作技能和长期任务规划。关键要求是支持接触丰富的操作、处理部分可观测性和感官噪声，以及实现持续学习以适应新环境。 医疗健康与医学成像。 在医疗健康领域，世界模型被用于建模疾病进展、预测治疗结果以及分析医学图像和视频。关键要求包括：能够从高维患者数据中学习复杂的非线性动力学；处理异质性和数据稀缺性；以及提供可解释的预测以支持临床决策。 视频生成与创意模拟。 在视频生成中，世界模型的任务是从特定初始条件或用户输入生成关于未来事件的逼真预测。虽然这些方法不涉及直接的行动控制输出，但它们本质上学习视频中世界的动力学，并可以生成多样化的轨迹，反映了不同可能未来的分布。 语言推理与决策制定。 在自然语言处理的背景下，世界模型被用来赋予语言模型以追踪状态变化和推理行动后果的能力。这种能力对于涉及多步推理、对话或任务完成的系统至关重要。 讨论与开放挑战。 这一分类强调了世界模型适应的广泛任务范围。一个长期目标是开发一个统一的、通用的世界模型，它可以支持所有这些下游用途，无需针对每个应用定制。然而，每个领域独特的要求——例如自主驾驶的实时安全约束或医疗应用的纵向预测——表明，系统可能需要保留针对特定任务优化的能力，同时以通用世界知识为基础。迈向这一目标的关键挑战包括开发捕捉物理世界核心知识的预训练目标，以及设计适应机制，允许该知识有效地用于不同的下游任务。

4 Categorization of World Models by Methodological Families / 世界模型方法论家族分类

状态空间与循环潜在世界模型

状态空间和循环潜在世界模型是最早且最具影响力的方法论家族之一，为现代基于模型的强化学习奠定了基础。这些模型将世界状态表示为一个潜在的、通常连续的向量，并利用循环神经网络来建模环境的时间演变。该领域著名的里程碑成就包括World Models、PlaNet和Dreamer系列。其核心思想是利用编码器将高维观测压缩为紧凑的潜在表示，而后通过循环转移函数推进该表示，以支持预测和决策。

基于Transformer的世界模型

在基于序列建模的Transformer架构的成功推动下，Transformer已成为构建世界模型的核心组件。它们通过自注意力机制为长距离依赖和复杂转换模式提供了强大的建模能力。此家族的工作涵盖了多种方法，从将动力学重新定义为下一个标记预测，到利用Transformer架构的规模优势进行大规模世界模型预训练。代表系统包括IRIS、STORM、GAIA-1等，其中IRIS将VQ-VAE与Transformer结合，将图像帧离散化后作为标记序列进行自回归预测；GAIA-1则结合了文本、视觉和行动输入，生成逼真的驾驶视频。

基于扩散的世界模型

基于扩散的世界模型利用扩散过程生成未来状态或观测。这与确定性或一次生成方法不同，它通过逐步去噪的方法实现高保真度的预测。代表系统如DIAMOND，将扩散模型嵌入到基于模型的强化学习框架中，在视觉观察空间中进行预测。GameNGen则模拟了经典视频游戏，在每步根据之前的帧和行动生成后续游戏画面。这类模型模拟的多模态预测能力在视频预测中特别出色。

物理信息与结构化世界模型

物理信息与结构化世界模型将物理定律和显式结构整合到框架中，旨在实现更具可解释、数据效率和物理一致性的预测。硬件在环和因果世界模型也属于此范畴。该方向的一个典型潮流是利用神经算子或偏微分方程进行天气预报等科学应用，将物理仿真器集成到可微分的深度学习管道中。

语言增强与多模态世界模型

语言增强与多模态世界模型通过将自然语言作为表示、推理和交互的核心模态来扩展世界模型能力。通过将语言集成到世界模型框架中，模型可以处理文本指令和指令驱动的预测。这包含基于视频的世界模型，如Sora，它将视觉观察与语言描述对齐，用于共同表示；另一个代表是Genie，一种从互联网视频中学习的可交互模拟器。此家族还包含了语言接地代理，通过结合视觉-文本转换和行动空间（如Smallville）来模拟社会行为和任务管理。

5 Categorization of World Models by Reasoning Strategy / 世界模型推理策略分类

世界模型不仅用于预测未来或模拟环境，还为智能体的推理过程提供了核心支持。以下是主要的推理策略分类。图3：基于想象力的潜在空间规划。该图根据原论文图2 重绘，展示智能体如何从当前潜在状态出发，模拟多条候选未来轨迹，并通过奖励预测器和价值函数选择动作。来源：根据原论文图2中文重绘。

基于想象力的规划

基于想象力的规划指利用世界的模型来思考可能的未来行为，从而提前评估后果。这是最具特色的推理策略之一。它可以分为两类：学习阶段想象（后台规划）和决策时刻想象（前向搜索）。基于想象的规划在存在高维观测和稀疏奖励的复杂决策任务中尤为有效。 学习阶段想象。 学习时，智能体在潜空间中展开想象的轨迹，通过梯度传播训练策略。Dreamer系列是该类方法的典型代表，其中行为者-评论家在网络训练于想象的轨迹中。 决策时刻想象。 在决策时，智能体执行明确的任务导向搜索。PlaNet正是在潜动作空间中通过使用化采样进行模型预测控制，以选择能够最大化预测总回报的动作。 跨领域优势。 Latent Imagination的关键优势在于其能够在计算上高效地预测长远未来，从而使得在现实世界的样本效率高，特别是在控制、机器人等任务中。 开放挑战：复合误差和目标不匹配。 该策略面临的主要挑战是积累的复合预测误差，在多步推演后难以保持准确。同时，轨迹的预测目标与策略的实际目标可能存在不一致的情况，导致优化效果打折。

利用世界模型进行策略学习

利用世界模型进行策略学习是指不是在规划中进行搜索，而是以世界模型作为环境进行强化学习策略的直接训练。通过将模型作为模拟器使用，可以从很少的真实交互中学习到稳定的策略。Dreamer是此方向的标志性模型；TD-MPC和STORM也继续使用此混合策略。

反事实推理

反事实推理是世界模型最强大的能力之一，允许智能体思考“如果做了不同的选择会怎样”。反事实推理涉及三个步骤：归纳（重新理解当前可能的状态）、行动（施加改变）和预测。这在结构化世界模型中是特别强的推理形式，因为可以推断因果结构。然而，其面临的关键难题是非可识别性，即无法从观察性数据唯一确定真正的因果模型。

不确定性下的规划

当世界模型具有对不确定性的显式建模能力时，规划必须考虑认知不确定性或偶然不确定性。基于模型的规划通常采用显式概率集成（如PETS），通过集成多个模型对预测结果加权，选择相对鲁棒的行为。贝叶斯方法和信息论导向的探索（如BRL）也属于此类。

6 Categorization of World Models by Application Domains / 世界模型应用领域分类

机器人

在机器人领域，世界模型通过将真实的操作环境建模为潜空间动力学，用于学习复杂技能。Daydreamer在真实机器人上直接扩展Dreamer算法，实现了长期、端到端的潜想象学习。RoboDreamer将语言指令与扩散分子模型结合进行灵巧操作。关键的挑战仍然包括Sim-to-Real迁移和接触模型的不确定性。

自动驾驶与控制系统

自动驾驶是一个依赖世界模型进行环境预测和决策制定的高速增长领域。代表性模型包括Vista用于生成逼真的驾驶视频，或GAIA-1用于可控的情景预测。此外，基于3D占用率的模型如OccWorld和Copilot4D专注于空间一致性预测。

视频预测与场景理解

视频预测是离物理直接更近的世界模型领域，典型代表为Sora、Cosmos等大规模生成模型。这些模型被广泛认为是隐式世界模拟器，但仍在因果结构与可控性方面存在争议。

多模态代理与语言接地系统

该领域强调语言对世界模型的增强，例如Smallville虚拟城镇作为社会模拟世界，通过在社交互动中模拟代理人。Actionable LLM通过利用语言报告状态，形成不完整的但直觉性的世界模型。

强化学习与游戏

在游戏和RL中，世界模型是克服稀疏回报和样本效率问题的关键。MuZero学习潜奖励和价值模型，Dreamer在模拟中训练。GameNGen展示了此类模型对以细节为导向的游戏环境模拟模型。

科学建模与领域专用建模

物理和化学等自然科学常常需要开发严格基于数据的世界模型（如神经天气预报，地震建模）。将工程物理约束（偏微分方程）嵌入模型称为物理信息神经网络。

医学影像与视频记录

在医学领域，世界模型承担疾病预测和治疗规划任务。代表任务为纵向CT/MR图像预测肿瘤演进。离模态如手术视频使用隐想象提升自主机器人手术质量。进展仍受限于非平稳数据和高变异性的患者生理动力学；因果推理限制也是瓶颈。

教育测量

教育领域的世界模型将学生认知结构建模为潜状态动力学，随时间推进。世界模型能够通过模拟学生状态、潜在技能和学习路径，动态调整最优教学内容，并预测不同教学策略下的表现。

商业与金融

商业与金融的世界模型不同于物理建模，它处理金融市场的社会构造。该领域将市场建模为一系列内部预期与反身反馈的系统。因此，模型的动态不仅包括物理转移，还包含对他人信仰的建模。主要瓶颈包括非平稳性和反馈识别性问题。

7 Evaluation Protocols and Benchmarks / 评估协议与基准

常用评估指标

世界模型评价指标主要分为两类：预测质量和下游任务表现。对于预测质量，常用结构相似性指数、峰值信噪比、均方误差，以及Frechet视频距离等。对于下游任务表现，广泛采用环境的平均回报、样本效率和模拟到真实的迁移成功率。

基准环境与数据集

强化学习与机器人领域的基准包括DM Control、Atari、Meta-World、MineDojo和Habitat。在自动驾驶方面，nuScenes、Waymo Open Motion Dataset和CARLA是核心数据集。大规模视频预测数据包括DOA、Kinetics和Something-Something。多模态评测包括OpenEQA和ALFRED。但目前评估存在碎片化问题，不同论文使用不同指标，使得方法间的直接比较变得困难。

8 Major Challenges and Limitations / 主要挑战与局限性

当前世界模型面临几个核心挑战。

复合预测误差：在多步想象中，预测误差会自增强，最终导致轨迹发散和策略性能严重下降。
模拟到真实迁移：在模拟环境训练的模型常因分布外状态而失效，Sim-to-Real迁移受光照、纹理等视觉差异影响尤其严重。
碎片化的评估实践：缺乏公认的统一评估协议，不同社区使用相异数据集与指标，阻碍了系统性对比。
模型偏差：长期想象中，学习到的动力学逼近会偏离真实环境，导致策略利用模型脆弱区。
反事实推理非可识别性：从静态数据推断正确因果关系是不可行的。

9 Discussion and Future Directions / 讨论与未来方向

世界模型的研究正朝着以下几个方向快速推进：

统一多模态世界模型：以视觉、触觉、语言等多模态骨干为基础的大型基础模拟器。
基础规模的交互式模拟器：训练通用世界模型，能适用于大量下游任务和不同系统。
Chain-of-Thought + World Models：以潜空间推理取代文本推理，结合思考链与想象链，提升深层推理能力。
安全关键领域部署：重点信任和脆弱性评估，强调模型在可解释性、可预测性方面的安全发展。

成为VIP会员查看完整内容