智能体化世界建模：基础、能力、规律及展望

随着人工智能系统从生成文本转向通过持续交互实现目标，对环境动力学（environment dynamics）建模的能力正逐渐成为核心瓶颈。无论是操纵物体的智能体、进行软件导航、与他人协同，还是设计实验，都需要具备预测性的环境模型；然而，“世界模型”（world model）一词在不同研究领域中含义各异。本文引入了一种基于“级别 $\times$ 规律”的分类体系，并从两个维度展开：第一个维度定义了三个能力级别： * L1 预测器 (Predictor)：学习单步局部转移算子（transition operators）； * L2 模拟器 (Simulator)：将算子组合为符合领域规律的、多步且以动作为条件的预演（rollouts）； * L3 演化器 (Evolver)：当预测与新证据发生冲突时，能够自主修正其自身模型。

第二个维度识别了四种治理规律范式（物理、数字、社会和科学），这些范式决定了世界模型必须满足的约束条件及其最可能的失效点。利用该框架，我们综合分析了 400 余篇学术论文，并总结了超过 100 个具有代表性的系统，涵盖了基于模型的强化学习（MBRL）、视频生成、Web 及 GUI 智能体、多智能体社会模拟以及 AI 驱动的科学发现等领域。我们分析了不同“级别-范式”组合下的方法论、失效模式及评估实践，提出了以决策为中心的评估原则和最小可复现评估包，并概述了架构指导、开放性问题以及治理挑战。本路线图将此前相互孤立的研究社区联系起来，规划了一条从被动式下一步预测，迈向能够模拟并最终重塑智能体运行环境的世界模型的演进路径。

1 引言

正如爱因斯坦（1936年）所言：“世界永恒的奥秘在于其可理解性。” 构建现实内部模型的雄心具有悠久的思想历史，它不仅出现在关于心理模型（mental models）的哲学阐述中（Craik, 1943; Johnson-Laird, 1983），也出现在现代机器学习中，表现为支持预测、控制、模拟和科学推理的可学习潜动力学（learned latent dynamics）（Ha and Schmidhuber, 2018; Hafner et al., 2020; Karniadakis et al., 2021）。“世界模型”（world model）这一术语现已广泛应用于各研究社区，但其精确的技术含义却存在显著差异（Ding et al., 2025a; Zhu et al., 2024）。在强化学习中，智能体学习转移结构以便在行动前想象未来（Sutton, 1991; Ha and Schmidhuber, 2018; Hafner et al., 2020; Schrittwieser et al., 2020）。在计算机视觉中，世界模型通常指代维持视觉动力学和时间连贯性的视频或 3D 生成器（Brooks et al., 2024; Bruce et al., 2024; Agarwal et al., 2025; Liang et al., 2026a;b; Bian et al., 2025; Kong et al., 2025）。在语言模型与智能体系统中，该术语可指代用于规划、Web 交互和社会环境的基于文本的模拟（Wang et al., 2024d; Gu et al., 2025b; Park et al., 2023; Zhang et al., 2026d;c）。在机器人学中，学习到的动力学服务于安全规划、数据高效的策略学习以及从模拟到现实（sim-to-real）的迁移（Wu et al., 2023a; Yang et al., 2024b; Min et al., 2024）。在科学领域，系统将代理模型（surrogate models）与假设驱动的实验相结合（Karniadakis et al., 2021; Lu et al., 2024a）。从互补的角度来看，世界模型与智能体是紧密耦合的。核心而言，世界模型学习环境的状态转移动力学：给定当前状态和动作，预测产生的下一状态。相反，智能体则根据任务目标和当前观测选择动作。这两个组件相辅相成：智能体依赖世界模型来预判候选动作的后果，从而实现前瞻性规划（look-ahead planning）和样本高效学习（Hafner et al., 2025; Schrittwieser et al., 2020; Dong et al., 2026; 2025）。反过来，世界模型受益于智能体生成的经验，这些经验提供了有针对性的、与任务相关的轨迹，从而提高了模型在状态空间决策关键区域的准确性（Sutton, 1991）。这种紧密耦合促成了本综述所采用的基于能力的视角：虽然世界模型用途广泛，但我们从操作层面将其价值定义为它们为下游智能体提供的决策质量。由于世界模型构成了一个基础组件，其价值超越了任何单一的智能体架构，因此其日益增长的重要性使得理清概念变得愈发紧迫。然而，上述多样性也导致了概念的碎片化：视觉研究人员可能通过生成帧的视觉逼真度来评估世界模型，而强化学习从业者则通过其是否提升了任务性能来评判同一术语。结果是，论文可能会在一种解释下报告强劲的进展，而在另一种解释下却无法进行比较。本文通过提供一种通用语言来解决这种碎片化问题，旨在对齐不同社区的同时保留领域特有的差异。

**1.1 动机

1. 当前综述现状。 近期已有若干综述尝试组织这一快速增长的文献。Ding et al. (2025a) 提出了“理解 vs. 预测”的双重分类法，将世界模型映射到自动驾驶、机器人和社交幻象等应用领域。Zhu et al. (2024) 关注由 Sora 催化的生成能力，综述了用于视频生成、自动驾驶和自主智能体的世界模型。Yue et al. (2025) 为 2D 视觉世界建模提供了一个路线图，提出了应用于机器人、自动驾驶和游戏的四代能力分类（G1–G4）。虽然这些 G1–G4 分类在区分日益增强的交互式视觉生成系统方面非常有用，但我们的 L1–L3 层次结构是互补而非竞争关系，因为它抽象掉了视觉模态，转而探讨系统是否支持跨越物理、数字、社会和科学范式的局部预测、决策可用模拟或证据驱动的模型修订。粗略地说，早期的 G 级别侧重于外观和以动作为条件的预测，而我们的 L2/L3 边界则由约束有效的预演（rollout）和持久的模型更新来界定。领域特定的综述也大量涌现：Li et al. (2025e) 专为具身智能提出了三轴框架（功能性、时间建模、空间表示）；Feng et al. (2025c) 和 Tu et al. (2025) 综述了自动驾驶的世界模型；Kong et al. (2025) 考察了 3D 和 4D 世界建模；Zhang et al. (2025d) 综述了机器人操纵的世界模型；越来越多的立场文件（position papers）开始质疑学习模型“理解”物理意味着什么（LeCun, 2022; Kang et al., 2025a）。在 AI for Science 领域，Wei et al. (2025b) 综述了生命科学、化学、材料和物理领域的自主科学发现，统一了面向过程、面向自主和面向机制的视角。另一条并行的综述线索则关注智能体规划与推理：Wei et al. (2025a) 综述了 LLM 在规划生成与验证方面的能力；Huang et al. (2024c) 将规划机制分类为分解、选择和反思；Cao et al. (2025a) 对微调与基于搜索的规划方法进行了系统比较；Zhao et al. (2025) 将智能体推理组织为单智能体、基于工具和多智能体框架；Arunkumar et al. (2026) 提出了涵盖感知、规划、动作和协作的统一智能体分类法。这些综述与本文相辅相成：它们侧重于智能体如何决策和行动，而我们则专注于支撑这些明智决策的预测基础（即世界模型）。尽管做出了宝贵贡献，但现有综述共享一个我们认为具有根本局限性的组织原则：它们按模态或应用领域分割该领域。我们的工作不同之处在于，通过一个跨模态的基于能力的分类法来组织该领域，涵盖了从具身操纵、自动驾驶到 Web 智能体、多智能体协同以及科学发现流水线等决策领域。

现有综述的空白。 以模态和领域为中心的分类法留下了两个关键空白。首先，它们未能捕捉到跨越模态的能力演进。一个典型的例子是基于模型的强化学习，其中潜空间“想象”预演（rollouts）在 Atari、连续控制和 Minecraft 等不同领域已达到或超过无模型基准（Hafner et al., 2025; Schrittwieser et al., 2020; Hafner et al., 2020）。我们将这种演进形式化为三级能力层级：单步预测、长程模拟和证据驱动的模型修订。我们框架的第二个动机是关于大规模生成模型究竟是“似是而非的生成器”还是“真实的世界模拟器”的激烈争论。现有综述已显现出这种张力（Brooks et al., 2024; Bruce et al., 2024; Kang et al., 2025a; Ding et al., 2025a），但基于能力的分类法有助于根据预演、干预敏感性、约束一致性及闭环使用（在第 2 节中形式化）来更精确地界定世界模型。此外，现有综述对世界建模在智能体化 AI 应用（包括 Web 智能体、工具使用智能体和多智能体系统）中的作用表现不足，而在这些应用中，学习到的环境动力学对于规划和动作选择至关重要（Gu et al., 2025b; Wang et al., 2024d; Park et al., 2023）。本文的目标是建立一个基于能力的分类法。图 2 展示了本综述相对于现有工作在范围（领域特定到跨领域）和组织原则（以模态为中心到以能力为中心）两个维度上的定位。图 1 一目了然地展示了本文的组织结构，按三个能力级别（L1 预测器、L2 模拟器、L3 演化器）和四个治理规律范式（物理、数字、社会和科学世界）对各章节进行了分组。

**1.2 范畴与组织原则

跨领域的治理原则。 我们沿两个正交轴组织本文：(i) 能力级别（L1/L2/L3，在第 2 节中正式定义），以及 (ii) 治理规律范式（即领域内合法转移必须满足的约束）。这些级别是世界建模能力的阶段，而非互斥的模型类别：同一个系统可能会根据任务需求，在不同时刻调用不同的级别。图 3 提供了这四个范式的示意图。 * 物理世界规律：感知；物理交互；机器人操纵、导航、自动驾驶、第一人称视频预测、动作条件视频建模、3D 世界建模。 * 数字世界规律：程序语义；Web 导航、软件工具使用、GUI 环境。 * 社会世界规律：信念；目标；规范；社会协作、对话、多智能体场景。 * 科学世界规律：潜机制；实验观测值；因果结构；科学发现流水线、测量耦合预测、假设驱动实验。

特别地，物理与科学范式的区别在于获取约束的方式：物理世界系统通常允许对转移进行解析或基于模拟器的验证，而科学世界系统通常需要经验验证，因为其治理机制仅被部分掌握。范式并非“正交模态”：现实系统往往混杂使用。分类法的价值在于诊断性；它阐明了某种方法试图保持哪些不变性，以及它可以可靠地回答哪些查询。更广泛地说，世界模型可以沿任何组织维度预测转移，如空间尺度、频率带或因果深度，只要它维持该轴向的能力标准。在全文中，我们使用“世界模型”指代支持干预感知（intervention-aware）转移查询的学习型（或混合型）算子，使用“世界建模”指代强化这些算子的阶段性过程。 运行时智能体如何使用这三个级别。 L1/L2/L3 分类法并非系统的静态分类，而是描述智能体在特定时刻调用的能力。单个部署的系统可以根据任务需求在不同级别运行： 1. L1 (预测器)：智能体执行快速、反应式的单步预测（如感知、底层运动控制或逐 token 生成），而不维持多步计划。 1. L2 (模拟器)：当任务需要比较候选动作序列、推理关于替代未来的反事实情况或验证计划轨迹是否符合治理规律约束时，智能体升级到此级别；此时智能体在执行动作前会进行多步预演模拟。 1. L3 (演化器)：当模型产生系统性预测失败，且无法通过现有模型结构内的重新规划解决时（即模型本身必须在下次部署前进行修订、资产蒸馏和更新验证），智能体提升至此级别。

这种运行时调度的视角阐明了为什么 L3 不是 L1/L2 的替代品，而是一个在证据需要时改进整个堆栈的治理层。在完整的智能体堆栈中，世界模型只是一个组件：工具使用决定了智能体如何作用于环境，记忆决定了哪些证据跨回合持久存在，多智能体协作塑造了社会环境中的有效转移逻辑，而反思则决定了失败何时触发修订而非仅仅是重新规划。我们的焦点是世界模型基座，但其作用始终是为这些更广泛的智能体闭环服务。

**1.3 贡献与定位

核心贡献

本文主要做出以下三项贡献（图 4）： 1. 面向智能体 AI 的世界建模能力路线图 (L1→L2→L3)：我们提出了具有可测试边界条件的三级能力层次结构：L1 预测世界（单步预测）、L2 模拟世界（长程、以动作为条件的约束满足预演）以及 L3 修改世界（通过自主数据收集和动力学修订实现的证据驱动型模型增长）。这些是能力的阶段，而非模型的类型。 1. 通过治理规律进行跨领域综合：我们将计算机视觉、语言模型、基于模型的强化学习与机器人学、以及 AI for Science 统一到单一的能力坐标系中。不同的治理规律（第 2 节）定义了世界模型的类型或分区，部分独立于 L1→L2→L3 能力轴。这种二维组织（能力级别 $\times$ 规律范式）揭示了以往孤立发展的社区间的共有原则，同时澄清了使直接迁移变得困难的领域特定挑战。 1. 将 L3 确定为独立的能力级别：证据驱动的模型增长（系统自主收集新证据并修订自身动力学模型）已在科学发现、自主实验和在线适配等领域以零散的形式出现。我们认为这种能力与 L2 预演有本质区别，并将其形式化为一个独立的级别，指出了实现大规模该能力必须解决的开放性问题。

定位。 本文作为一篇立场驱动的综述，提出了世界建模的能力分类法。它推进了一个特定的概念框架（即 L1/L2/L3 能力层级与治理规律范式分类的结合），并主张在整个世界建模界采用该框架。与纯粹的综述不同，它提出了可测试的边界条件，并利用它们重新审视现有系统的分类。与纯粹的立场文件不同，它通过涵盖计算机视觉、强化学习、机器人学、自然语言处理和 AI for Science 的详尽文献综述来证实每个论点。本文不引入新的基准测试或排行榜；相反，它提供了一个统一的概念框架，用于解释和比较现有的系统与评估方法。 大纲。 第 2 节建立概念和符号基础：从认识论直觉出发阐述三个能力阶段的动机，给出每个阶段的正式定义及其可测试的边界条件，并澄清世界建模与通用预测、世界模型与规划器、以及世界建模与常识之间的区别。第 3–5 节详细介绍了三个能力级别，并辅以代表性方法和跨领域分析。第 6 节讨论评估方法学，第 7 节探讨架构与计算方面的考量，第 8 节识别新兴趋势与开放性问题。第 9 节总结全文。我们注意到 L3 并非终点；第 8 节引入了元世界建模（meta-world modeling），在此阶段治理规律本身变得可学习，并识别了这所蕴含的挑战。

成为VIP会员查看完整内容

1 引言

**1.1 动机

**1.2 范畴与组织原则

**1.3 贡献与定位

相关内容