《图世界模型：概念、分类体系与未来方向》

摘要——作为人工智能的主流模型之一，世界模型使智能体能够学习环境表征，从而实现高效的预测与规划。然而，基于扁平张量的经典世界模型面临若干关键问题，包括噪声敏感、误差累积以及推理能力较弱。为应对这些局限，近年来许多研究采用图结构将环境分解为实体节点与交互边，并在结构化空间中建模虚拟环境。本文在图世界模型（Graph World Models, GWMs）这一概念下，对这些新兴的基于图的方法进行系统形式化与统一。就我们所知，GWMs 尚未被明确界定并作为一种统一研究范式进行综述。此外，我们提出了一种基于关系归纳偏置（Relational Inductive Biases, RIB）的分类体系，根据 GWMs 注入的具体结构先验将其划分为：（1）用于拓扑抽象的空间 RIB；（2）用于动态仿真的物理 RIB；（3）用于因果与语义推理的逻辑 RIB。针对每一类模型，我们概述其关键设计原则，总结代表性模型，并开展比较分析。我们进一步讨论开放挑战与未来方向，包括动态图自适应、概率关系动力学、多粒度归纳偏置，以及面向 GWMs 的专用基准与评估指标的需求。

索引词——图世界模型，世界模型，关系归纳偏置，具身 AI，图表示学习

1 引言

作为人工智能的重要分支，世界模型学习环境的压缩时空表征 [1, 2]。基于用于感知的视觉模块和用于动态预测的记忆模块，智能体可以在世界模型中模拟未来状态并学习决策，而不是直接与真实世界交互。因此，世界模型在机器人 [3]、自动驾驶 [4] 和视频生成 [5] 等领域展现出巨大的应用潜力。然而，早期世界模型架构存在若干局限，阻碍了其在复杂且高风险环境中的部署。（1）噪声敏感：像素级建模需要消耗大量模型容量来建模背景噪声等与任务无关的细节，使模型难以捕获关键的结构化特征 [6, 7, 8]。（2）误差累积：在长程虚拟仿真中，每一步的预测偏差会随时间持续累积，导致预测轨迹迅速偏离真实环境 [9, 10, 11]。（3）推理能力较弱：由于缺乏对对象交互规律的建模，模型难以在复杂交互场景中进行有效的逻辑演绎和跨任务泛化 [12, 13]。

为应对这些局限，近期研究越来越多地采用结构化状态表示来增强世界模型。然而，尽管这一范式已经出现，学术界仍缺乏统一定义。本文将这些工作称为图世界模型（Graph World Models, GWMs），并通过将关系归纳偏置（Relational Inductive Bias, RIB）[14] 结构化注入世界模型的输入环境中，对 GWMs 进行形式化定义。如图 1 所示，GWM 将环境建模为图 G=(V,E)G=(V,E)G=(V,E)，并通过边来建模潜在关系。通过这种方式，GWM 能够从空间、物理或逻辑层面注入关系归纳偏置，从而缓解经典世界模型中的上述关键问题。

尽管相关研究不断涌现，现有工作仍分散于强化学习、机器人、计算机视觉、具身 AI 以及基于大语言模型的智能体等领域。已有关于世界模型、机器人世界模型、视频生成和具身智能体的综述提供了有价值的概览，但它们并未将图世界模型明确形式化为一种以图结构关系归纳偏置为核心的统一研究范式。不同于已有综述对世界模型的一般性分类 [4, 15, 16, 17, 18, 19]，我们提出了一种三层分类体系，按照 GWMs 所注入的 RIB 类型——空间、物理或逻辑——对其进行组织。该分类体系不仅展示了图在世界模型中的作用，也与模型能力及其关注问题密切相关：

图作为连接器（空间 RIB）：使用图来建模可达性与连通性。
图作为仿真器（物理 RIB）：使用图将复杂物理过程提炼为交互规则。
图作为推理器（逻辑 RIB）：使用图提取语义协议或因果骨架。

基于上述定义与分类，本文综述做出以下三点贡献：

据我们所知，本文是首篇将图世界模型明确形式化为统一研究范式的综述。我们的定义提供了一个数学框架，用以统一多样化的研究脉络。
本文提出了一种新的分类体系，基于 RIB 将 GWMs 划分为连接器、仿真器和推理器。在该分类体系下，我们对发表于顶级会议和期刊的相关论文进行了系统调研与全面讨论。
本文提出了若干有前景的未来方向，以推动 GWM 领域的发展。

成为VIP会员查看完整内容