This work presents RepWAM, a representation-centric world action model (WAM) built on representation visual-action tokenizers. Existing WAMs typically inherit reconstruction-oriented video tokenizers from pretrained video generation models. Although these tokenizers preserve visual fidelity, pixel reconstruction alone provides limited guidance for learning instruction-following dynamics that connect future prediction with robot control. To address this, we explore a semantic visual-action latent space for representation-centric world action modeling. Specifically, we train a representation visual-action tokenizer that maps visual inputs into aligned visual and latent action tokens. We then pretrain our WAM to jointly model future visual states and the latent actions that connect them under language instructions, followed by adaptation to real robot trajectories for closed-loop manipulation. Experiments on real-world manipulation tasks and simulation benchmarks show that RepWAM delivers strong performance across diverse manipulation settings, while ablations highlight the value of semantic visual-action tokenization over reconstruction-oriented alternatives. These results establish representation visual-action tokenization as a promising foundation for world action models and a step toward generalist robot policies. Code and weights will be available at https://github.com/wdrink/RepWAM.


翻译:摘要:本文提出RepWAM,一种以表征为核心的、基于表征视觉-动作分词器(representation visual-action tokenizers)的世界动作模型(WAM)。现有世界动作模型通常从预训练的视频生成模型中继承面向重建的视频分词器。尽管这些分词器保留了视觉保真度,但仅靠像素重建为学习将未来预测与机器人控制相连接的指令跟随动力学提供的指导有限。为解决此问题,我们探索了一种用于以表征为中心的世界动作建模的语义视觉-动作潜在空间。具体而言,我们训练了一个表征视觉-动作分词器,将视觉输入映射为对齐的视觉和潜在动作令牌。随后,我们预训练世界动作模型以在语言指令下联合建模未来视觉状态及其连接的潜在动作,并通过适配真实机器人轨迹实现闭环操控。在真实世界操控任务和仿真基准上的实验表明,RepWAM在多种操控场景中均展现出强劲性能,而消融实验则凸显了语义视觉-动作分词相比面向重建方法的优势。这些结果确立了表征视觉-动作分词作为世界动作模型有前途的基础,并朝着通用机器人策略迈出了一步。代码和权重将在https://github.com/wdrink/RepWAM 开放获取。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【NVDIA】世界动作模型是零样本策略
专知会员服务
13+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【NVDIA】世界动作模型是零样本策略
专知会员服务
13+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员