Vision-Language-Action (VLA) models are promising for generalist robot manipulation but remain brittle in out-of-distribution (OOD) settings, especially with limited real-robot data. To resolve the generalization bottleneck, we introduce a hierarchical Vision-Language-Action framework \our{} that leverages the generalization of large-scale pre-trained world model for robust and generalizable VIsual Subgoal TAsk decomposition VISTA. Our hierarchical framework \our{} consists of a world model as the high-level planner and a VLA as the low-level executor. The high-level world model first divides manipulation tasks into subtask sequences with goal images, and the low-level policy follows the textual and visual guidance to generate action sequences. Compared to raw textual goal specification, these synthesized goal images provide visually and physically grounded details for low-level policies, making it feasible to generalize across unseen objects and novel scenarios. We validate both visual goal synthesis and our hierarchical VLA policies in massive out-of-distribution scenarios, and the performance of the same-structured VLA in novel scenarios could boost from 14% to 69% with the guidance generated by the world model. Results demonstrate that our method outperforms previous baselines with a clear margin, particularly in out-of-distribution scenarios. Project page: \href{https://vista-wm.github.io/}{https://vista-wm.github.io}


翻译:视觉-语言-动作(VLA)模型在通用机器人操作方面前景广阔,但在分布外(OOD)场景中仍然脆弱,尤其是在真实机器人数据有限的情况下。为解决泛化瓶颈,我们引入了一个分层视觉-语言-动作框架 \our{},该框架利用大规模预训练世界模型的泛化能力,实现鲁棒且可泛化的视觉子目标任务分解(VISTA)。我们的分层框架 \our{} 包含一个作为高层规划器的世界模型和一个作为低层执行器的 VLA 模型。高层世界模型首先将操作任务分解为带有目标图像的子任务序列,低层策略则遵循文本和视觉指导生成动作序列。与原始的文本目标描述相比,这些合成的目标图像为低层策略提供了视觉和物理上更具体的基础细节,使其能够泛化到未见过的物体和新颖场景中。我们在大量分布外场景中验证了视觉目标合成和我们的分层 VLA 策略,结果表明,在世界模型生成的指导下,相同结构的 VLA 模型在新颖场景中的性能可以从 14% 提升至 69%。实验结果证明,我们的方法明显优于之前的基线模型,尤其是在分布外场景中。项目页面:\href{https://vista-wm.github.io/}{https://vista-wm.github.io}

0
下载
关闭预览

相关内容

【NVDIA】世界动作模型是零样本策略
专知会员服务
10+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
大模型的能力边界与指挥控制应用
专知会员服务
82+阅读 · 2025年1月4日
世界模型:安全性视角
专知会员服务
40+阅读 · 2024年11月17日
层级强化学习概念简介
CreateAMind
20+阅读 · 2019年6月9日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关VIP内容
【NVDIA】世界动作模型是零样本策略
专知会员服务
10+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
大模型的能力边界与指挥控制应用
专知会员服务
82+阅读 · 2025年1月4日
世界模型:安全性视角
专知会员服务
40+阅读 · 2024年11月17日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员