We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like $π_{0.5}$ across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.


翻译:我们提出Embodied-R1.5,一种统一的具身基础模型(EFM),旨在单一架构中集成全面的具身推理能力,涵盖具身认知、任务规划、纠错与指向,以迈向通用物理智能。通过利用三条自动化数据构建流水线,显著扩展关键能力的数据覆盖范围,我们构建了一个超过150亿词元的大规模数据系统,并设计了一种多任务平衡的强化学习方案以缓解异构任务冲突。我们进一步引入规划-接地-纠错(PGC)闭环框架,使单一模型能够自主执行并自我纠错长时域任务。仅凭80亿参数,Embodied-R1.5在24个具身视觉-语言模型基准测试中的16项上达到最优性能,超越了Gemini-Robotics-ER-1.5和GPT-5.4等领先模型。由于内化了具身能力,Embodied-R1.5仅需少量数据即可微调为视觉-语言-动作模型,在4个流行操作基准测试套件上优于$π_{0.5}$等领先视觉-语言-动作模型。我们进一步开展了广泛的零样本真实机器人实验,在指令遵循、可供性接地、铰接物体操作和长时域复杂任务中验证了性能,展示了在物理世界中的强泛化能力。我们开源了模型权重、数据集、训练代码以及针对具身任务设计的评估框架EmbodiedEvalKit,以促进未来对具身基础模型的研究。

0
下载
关闭预览

相关内容

《具身智能发展报告(2025年)》,67页pdf
专知会员服务
24+阅读 · 2月1日
【ICCV2025教程】基础模型遇见具身智能体
专知会员服务
16+阅读 · 2025年10月23日
具身智能中的世界模型:全面综述
专知会员服务
52+阅读 · 2025年10月21日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
48+阅读 · 2025年8月16日
具身智能学习综述:基于物理模拟器与世界模型的方法
专知会员服务
35+阅读 · 2025年7月2日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员