Vision-Language-Action (VLA) models are a promising path toward embodied intelligence, yet they often overlook the predictive and temporal-causal structure underlying visual dynamics. World-model VLAs address this by predicting future frames, but waste capacity reconstructing redundant backgrounds. Latent-action VLAs encode frame-to-frame transitions compactly, but lack temporally continuous dynamic modeling and world knowledge. To overcome these limitations, we introduce CoWVLA (Chain-of-World VLA), a new "Chain of World" paradigm that unifies world-model temporal reasoning with a disentangled latent motion representation. First, a pretrained video VAE serves as a latent motion extractor, explicitly factorizing video segments into structure and motion latents. Then, during pre-training, the VLA learns from an instruction and an initial frame to infer a continuous latent motion chain and predict the segment's terminal frame. Finally, during co-fine-tuning, this latent dynamic is aligned with discrete action prediction by jointly modeling sparse keyframes and action sequences in a unified autoregressive decoder. This design preserves the world-model benefits of temporal reasoning and world knowledge while retaining the compactness and interpretability of latent actions, enabling efficient visuomotor learning. Extensive experiments on robotic simulation benchmarks show that CoWVLA outperforms existing world-model and latent-action approaches and achieves moderate computational efficiency, highlighting its potential as a more effective VLA pretraining paradigm. The project website can be found at https://fx-hit.github.io/cowvla-io.


翻译:视觉-语言-动作(VLA)模型是实现具身智能的一条有前景的路径,但它们往往忽略了视觉动态背后的预测性和时序因果结构。世界模型VLA通过预测未来帧来解决这一问题,但浪费了容量来重建冗余的背景。潜在动作VLA紧凑地编码帧间转换,但缺乏时序连续的动态建模和世界知识。为了克服这些限制,我们引入了CoWVLA(链式世界VLA),这是一种新的“链式世界”范式,它将世界模型的时序推理与解耦的潜在运动表示统一起来。首先,一个预训练的视频VAE作为潜在运动提取器,明确地将视频片段分解为结构和运动潜在变量。然后,在预训练期间,VLA从一条指令和一个初始帧中学习,以推断一个连续的潜在运动链并预测片段的终止帧。最后,在协同微调期间,通过在统一的自回归解码器中联合建模稀疏关键帧和动作序列,将这种潜在动态与离散动作预测对齐。这种设计保留了世界模型在时序推理和世界知识方面的优势,同时保持了潜在动作的紧凑性和可解释性,从而实现了高效的视觉运动学习。在机器人仿真基准上进行的大量实验表明,CoWVLA优于现有的世界模型和潜在动作方法,并实现了适度的计算效率,突显了其作为一种更有效的VLA预训练范式的潜力。项目网站可在 https://fx-hit.github.io/cowvla-io 找到。

0
下载
关闭预览

相关内容

【NVDIA】世界动作模型是零样本策略
专知会员服务
11+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
77+阅读 · 2024年11月26日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NVDIA】世界动作模型是零样本策略
专知会员服务
11+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
三维与四维世界建模综述
专知会员服务
30+阅读 · 2025年9月12日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
77+阅读 · 2024年11月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员