A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the $π_0$ architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming $π_{0.5}$ at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation


翻译:机器人学习领域的主流观点认为,仅靠仿真是不够的;人们普遍认为,要实现有效的仿真到现实迁移,至少需要收集部分真实世界数据或进行任务特定的微调,以弥合仿真环境与物理环境之间的差距。我们挑战了这一假设。通过使用足够大规模且多样化的仿真合成训练数据,我们证明了零样本迁移至现实世界不仅是可能的,而且对于静态和移动操作任务均有效。我们介绍了MolmoBot-Engine,这是一个完全开源的流程,用于在MolmoSpaces中跨机器人、任务和多样化仿真环境进行程序化数据生成。基于此,我们发布了MolmoBot-Data数据集,其中包含180万条用于铰接物体操作和抓取放置任务的专家轨迹。我们训练了三种策略类别:MolmoBot,一种基于Molmo2的多帧视觉语言模型,配备流匹配动作头;MolmoBot-Pi0,其复现了$π_0$架构以实现直接比较;以及MolmoBot-SPOC,一种适用于边缘部署且易于进行强化学习微调的轻量级策略。我们在两个机器人平台上进行评估:用于桌面操作任务的Franka FR3,以及用于开门、抽屉操作、柜体交互和移动抓取放置任务的Rainbow Robotics RB-Y1移动操作器。在未进行任何真实世界微调的情况下,我们的策略实现了对未见过的物体和环境的零样本迁移。在桌面抓取放置任务中,MolmoBot在真实世界评估的4种设置中取得了79.2%的成功率,优于$π_{0.5}$的39.2%。我们的结果表明,程序化环境生成结合多样化的铰接资产,能够产生鲁棒的操作策略,并广泛泛化至现实世界。技术博客:https://allenai.org/blog/molmobot-robot-manipulation

0
下载
关闭预览

相关内容

零样本图像识别综述论文
专知
22+阅读 · 2020年4月4日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员