世界模型正在迅速重塑人工智能,从被动感知世界的系统演变为能够在其内部进行模拟、推理和规划的引擎。本教程将探讨生成建模、自监督学习及多模态架构的最新进展如何使机器超越识别与预测,迈向心理模拟、反事实推理和决策制定。我们将剖析世界模型的基础原理,从视觉与多模态数据中学习动态的方法,以及规划与推理的整合机制。教程重点阐述视频生成、扩散模型、离散表示和具身智能之间的关联,同时讨论基础构建、因果性、物理一致性及评估等关键挑战。本教程面向研究人员、从业者和学生,旨在为构建对环境进行推理而非仅仅解释环境的人工智能系统提供概念性洞见与实践视角。我们的线下教程吸引了超过300名参与者。 14:00 - 14:10
开幕致辞:动机与概述 蔡宇钧 (Yujun Cai) 14:10 - 14:40
特邀报告:从思维链到状态链——为何有能力的模型必须反向预测世界 丹·孔德拉图克 (Dan Kondratyuk) 14:40 - 15:10
特邀报告:Genie 3 —— 生成交互式逼真世界 齐航 (Hang Qi) 15:10 - 15:50
特邀报告:面向物理一致的高效视觉世界模型 蔡剑飞 (Jianfei Cai) 15:50 - 16:20
特邀报告:VideoPhy —— 视频生成中的物理常识评估 张凯崴 (Kai-Wei Chang) 16:20 - 16:50
特邀报告:Cosmos 3 —— 面向物理AI的全能世界基础模型 刘明宇 (Ming-Yu Liu) 16:50 - 17:25
特邀报告:走向世界模型 —— 几何、视图合成与视觉推理 杨明轩 (Ming-Hsuan Yang)