Action-conditioned video prediction models (often referred to as world models) have shown strong potential for robotics applications, but existing approaches are often slow and struggle to capture physically consistent interactions over long horizons, limiting their usefulness for scalable robot policy training and evaluation. We present Interactive World Simulator, a framework for building interactive world models from a moderate-sized robot interaction dataset. Our approach leverages consistency models for both image decoding and latent-space dynamics prediction, enabling fast and stable simulation of physical interactions. In our experiments, the learned world models produce interaction-consistent pixel-level predictions and support stable long-horizon interactions for more than 10 minutes at 15 FPS on a single RTX 4090 GPU. Our framework enables scalable demonstration collection solely within the world models to train state-of-the-art imitation policies. Through extensive real-world evaluation across diverse tasks involving rigid objects, deformable objects, object piles, and their interactions, we find that policies trained on world-model-generated data perform comparably to those trained on the same amount of real-world data. Additionally, we evaluate policies both within the world models and in the real world across diverse tasks, and observe a strong correlation between simulated and real-world performance. Together, these results establish the Interactive World Simulator as a stable and physically consistent surrogate for scalable robotic data generation and faithful, reproducible policy evaluation.


翻译:动作条件视频预测模型(通常称为世界模型)在机器人应用中展现出巨大潜力,但现有方法往往速度较慢且难以捕捉长时域内物理一致的交互,限制了其在可扩展机器人策略训练与评估中的实用性。本文提出交互式世界模拟器,这是一个基于中等规模机器人交互数据集构建交互式世界模型的框架。我们的方法在图像解码和潜空间动态预测中均采用一致性模型,实现了物理交互的快速稳定仿真。实验表明,学习得到的世界模型能生成交互一致的像素级预测,并在单块RTX 4090 GPU上以15 FPS的速率支持超过10分钟的稳定长时域交互。该框架支持完全在世界模型内部进行可扩展的示范数据收集,用于训练最先进的模仿策略。通过对刚性物体、可变形物体、物体堆及其交互的多样化任务进行大量现实世界评估,我们发现基于世界模型生成数据训练的策略与等量真实世界数据训练的策略表现相当。此外,我们在世界模型内部和现实世界中跨多种任务评估策略,观察到仿真性能与现实世界性能之间存在强相关性。这些结果共同表明,交互式世界模拟器可作为稳定且物理一致的替代方案,用于可扩展机器人数据生成与可靠、可复现的策略评估。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
35+阅读 · 1月10日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
35+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
CCCF专题:史元春 | 自然人机交互
中国计算机学会
25+阅读 · 2018年5月18日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
16+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
具身智能中的心理世界建模:深度综述
专知会员服务
35+阅读 · 1月10日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
35+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员