In Model Predictive Control (MPC), world models predict the future outcomes of various action proposals, which are then scored to guide the selection of the optimal action. For visuomotor MPC, the score function is a distance metric between a predicted image and a goal image, measured in the latent space of a pretrained vision encoder like DINO and JEPA. However, it is challenging to obtain the goal image in advance of the task execution, particularly in new environments. Additionally, conveying the goal through an image offers limited interactivity compared with natural language. In this work, we propose to learn a Grounded World Model (GWM) in a vision-language-aligned latent space. As a result, each proposed action is scored based on how close its future outcome is to the task instruction, reflected by the similarity of embeddings. This approach transforms the visuomotor MPC to a VLA that surpasses VLM-based VLAs in semantic generalization. On the proposed WISER benchmark, GWM-MPC achieves a 87% success rate on the test set comprising 288 tasks that feature unseen visual signals and referring expressions, yet remain solvable with motions demonstrated during training. In contrast, traditional VLAs achieve an average success rate of 22%, even though they overfit the training set with a 90% success rate.


翻译:在模型预测控制(MPC)中,世界模型预测各种动作方案的未来结果,随后对这些结果进行评分以指导最优动作的选择。对于视觉运动MPC,评分函数是预测图像与目标图像之间的距离度量,该度量在预训练视觉编码器(如DINO和JEPA)的潜在空间中测量。然而,在任务执行前获取目标图像具有挑战性,尤其是在新环境中。此外,与自然语言相比,通过图像传达目标提供的交互性有限。在这项工作中,我们提出在视觉-语言对齐的潜在空间中学习一种情境化世界模型(GWM)。因此,每个提议的动作根据其未来结果与任务指令的接近程度进行评分,这通过嵌入的相似性体现。该方法将视觉运动MPC转化为一种超越基于VLM的VLA(视觉-语言-动作模型)语义泛化能力的VLA。在提出的WISER基准测试中,GWM-MPC在包含288个任务的测试集上实现了87%的成功率,这些任务具有未见过的视觉信号和指代表达式,但仍可通过训练中展示的动作解决。相比之下,传统的VLA平均成功率为22%,尽管它们以90%的成功率过拟合了训练集。

0
下载
关闭预览

相关内容

具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
具身智能中的世界模型:全面综述
专知会员服务
53+阅读 · 2025年10月21日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
大语言模型在规划与调度问题上的应用
专知会员服务
53+阅读 · 2025年1月12日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员