Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning - 专知论文

会员服务 ·

0

令牌 · 离散 · 策略生成 · 分层 · 并行 ·

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

翻译：Discrete-WAM：统一离散视觉-动作令牌编辑的世界-策略学习

Ziyang Yao,Haochen Liu,Yuncheng Jiang,Zeyu Zhu,Zibin Guo,Jingru Wang,Tianle Liu,Jianwei Cui,Kuiyuan Yang,Hongwei Xie,Jingwei Zhao,Guang Chen,Hangjun Ye

Autonomous driving requires reasoning about how ego actions shape future world evolution, rather than merely mapping observations to actions. However, most end-to-end methods rely on direct state-to-action imitation, while existing world models often remain weakly aligned with downstream policy generation. We introduce Discrete-WAM, a unified discrete vision-action world-policy framework that represents visual observations, future states, high-level decisions, and ego actions within a shared token space. Built on this discrete alignment, Discrete-WAM jointly trains world modeling, world-policy modeling, and policy modeling through multi-task and multi-stage pretraining, allowing action-conditioned future prediction to directly support policy generation. For downstream planning, Discrete-WAM further decomposes policy generation into hierarchical decision prediction and parallel action-token editing, where the decision token provides a high-level planning skeleton and confidence-based scheduling refines dense future actions efficiently. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves strong planning performance while supporting controllable future generation, counterfactual evaluation, surprise-based world-model analysis, and efficient parallel policy decoding. These results suggest that discrete representation alignment, unified world-policy training, and hierarchical token editing provide a promising design paradigm for physical AI.

翻译：自主驾驶需要推理自我动作如何塑造未来世界演化，而不仅仅是建立观测到动作的映射。然而，大多数端到端方法依赖直接的状态到动作模仿，而现有世界模型往往与下游策略生成的关联较弱。我们提出Discrete-WAM，一个统一的离散视觉-动作世界-策略框架，在共享令牌空间中表示视觉观测、未来状态、高层决策和自我动作。基于该离散对齐，Discrete-WAM通过多任务和多阶段预训练联合训练世界建模、世界-策略建模和策略建模，使得动作条件下的未来预测能够直接支持策略生成。对于下游规划，Discrete-WAM进一步将策略生成分解为分层决策预测与并行动作令牌编辑，其中决策令牌提供高层规划骨架，而基于置信度的调度则高效地细化密集未来动作。在大规模自主驾驶基准上的实验表明，Discrete-WAM在实现强规划性能的同时，支持可控未来生成、反事实评估、基于惊奇的世界模型分析以及高效并行策略解码。这些结果表明，离散表征对齐、统一世界-策略训练以及分层令牌编辑为物理AI提供了一种有前景的设计范式。

0

相关内容

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

22+阅读 · 5月13日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

24+阅读 · 4月18日

《美空军技术学院：自动驾驶系统中的决策支持问题》

《美空军技术学院：自动驾驶系统中的决策支持问题》

专知会员服务

11+阅读 · 4月8日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

59+阅读 · 2025年11月18日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

141+阅读 · 2022年5月17日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

Arxiv

0+阅读 · 6月16日

OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation

Arxiv

0+阅读 · 6月16日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月13日

Making Foresight Actionable: Repurposing Representation Alignment in World Action Models

Arxiv

0+阅读 · 6月10日

Efficient-WAM: A 1B-Parameter World-Action Model with Low-Cost Future Imagination

Arxiv

0+阅读 · 6月10日

Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

Arxiv

0+阅读 · 6月6日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月3日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

9+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

22+阅读 · 5月13日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

24+阅读 · 4月18日

《美空军技术学院：自动驾驶系统中的决策支持问题》

《美空军技术学院：自动驾驶系统中的决策支持问题》

专知会员服务

11+阅读 · 4月8日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

59+阅读 · 2025年11月18日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

141+阅读 · 2022年5月17日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

Arxiv

0+阅读 · 6月16日

OmniDrive: An LLM-Choreographed Multi-Agent World Model with Unified Latent Co-Compression for Multi-View Driving Video Generation

Arxiv

0+阅读 · 6月16日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 6月14日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月13日

Making Foresight Actionable: Repurposing Representation Alignment in World Action Models

Arxiv

0+阅读 · 6月10日

Efficient-WAM: A 1B-Parameter World-Action Model with Low-Cost Future Imagination

Arxiv

0+阅读 · 6月10日

Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning

Arxiv

0+阅读 · 6月6日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月3日

IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving

Arxiv

0+阅读 · 5月29日

FineVLA: Fine-Grained Instruction Alignment for Steerable Vision-Language-Action Policies

Arxiv

0+阅读 · 5月26日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

面向主体行为网的自适应作战机理研究

国家自然科学基金

24+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员