Autonomous driving requires reasoning about how ego actions shape future world evolution, rather than merely mapping observations to actions. However, most end-to-end methods rely on direct state-to-action imitation, while existing world models often remain weakly aligned with downstream policy generation. We introduce Discrete-WAM, a unified discrete vision-action world-policy framework that represents visual observations, future states, high-level decisions, and ego actions within a shared token space. Built on this discrete alignment, Discrete-WAM jointly trains world modeling, world-policy modeling, and policy modeling through multi-task and multi-stage pretraining, allowing action-conditioned future prediction to directly support policy generation. For downstream planning, Discrete-WAM further decomposes policy generation into hierarchical decision prediction and parallel action-token editing, where the decision token provides a high-level planning skeleton and confidence-based scheduling refines dense future actions efficiently. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves strong planning performance while supporting controllable future generation, counterfactual evaluation, surprise-based world-model analysis, and efficient parallel policy decoding. These results suggest that discrete representation alignment, unified world-policy training, and hierarchical token editing provide a promising design paradigm for physical AI.


翻译:自主驾驶需要推理自我动作如何塑造未来世界演化,而不仅仅是建立观测到动作的映射。然而,大多数端到端方法依赖直接的状态到动作模仿,而现有世界模型往往与下游策略生成的关联较弱。我们提出Discrete-WAM,一个统一的离散视觉-动作世界-策略框架,在共享令牌空间中表示视觉观测、未来状态、高层决策和自我动作。基于该离散对齐,Discrete-WAM通过多任务和多阶段预训练联合训练世界建模、世界-策略建模和策略建模,使得动作条件下的未来预测能够直接支持策略生成。对于下游规划,Discrete-WAM进一步将策略生成分解为分层决策预测与并行动作令牌编辑,其中决策令牌提供高层规划骨架,而基于置信度的调度则高效地细化密集未来动作。在大规模自主驾驶基准上的实验表明,Discrete-WAM在实现强规划性能的同时,支持可控未来生成、反事实评估、基于惊奇的世界模型分析以及高效并行策略解码。这些结果表明,离散表征对齐、统一世界-策略训练以及分层令牌编辑为物理AI提供了一种有前景的设计范式。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
59+阅读 · 2025年11月18日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员