MiMo-Embodied: X-Embodied Foundation Model Technical Report - 专知论文

会员服务 ·

0

MIMO · 基准 · 基准测试 · 大模型 · 自动驾驶 ·

MiMo-Embodied: X-Embodied Foundation Model Technical Report

翻译：MiMo-Embodied：跨具身基础模型技术报告

Xiaoshuai Hao,Lei Zhou,Zhijian Huang,Zhiwen Hou,Yingbo Tang,Lingfeng Zhang,Guang Li,Zheng Lu,Shuhuai Ren,Xianhui Meng,Yuchen Zhang,Jing Wu,Jinghui Lu,Chenxu Dang,Jiayi Guan,Jianhua Wu,Zhiyi Hou,Hanbing Li,Shumeng Xia,Mingliang Zhou,Yinan Zheng,Zihao Yue,Shuhao Gu,Hao Tian,Yuannan Shen,Jianwei Cui,Wen Zhang,Shaoqing Xu,Bing Wang,Haiyang Sun,Zeyu Zhu,Yuncheng Jiang,Zibin Guo,Chuhong Gong,Chaofan Zhang,Wenbo Ding,Kun Ma,Guang Chen,Rui Cai,Diyun Xiang,Heng Qu,Fuli Luo,Hangjun Ye,Long Chen

from arxiv, Code: https://github.com/XiaomiMiMo/MiMo-Embodied | Model: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B

We open-source MiMo-Embodied, the first cross-embodied foundation model to successfully integrate and achieve state-of-the-art performance in both Autonomous Driving and Embodied AI. MiMo-Embodied sets new records across 17 embodied AI benchmarks in Task Planning, Affordance Prediction and Spatial Understanding, while also excelling in 12 autonomous driving benchmarks across Environmental Perception, Status Prediction, and Driving Planning. Across these tasks, MiMo-Embodied significantly outperforms existing open-source, closed-source, and specialized baselines. Our results indicate that through multi-stage learning, curated data construction, and CoT/RL fine-tuning, these two domains exhibit strong positive transfer and mutually reinforce one another. We provide a detailed analysis of our model design and training methodologies to facilitate further research. Code and models are available at https://github.com/XiaomiMiMo/MiMo-Embodied.

翻译：我们开源了MiMo-Embodied，这是首个成功整合并在自动驾驶与具身智能均达到最先进性能的跨具身基础模型。MiMo-Embodied在任务规划、功能预测和空间理解等17项具身智能基准测试中刷新纪录，同时在环境感知、状态预测和驾驶规划等12项自动驾驶基准测试中表现卓越。在这些任务中，MiMo-Embodied显著优于现有开源、闭源及专用基线模型。实验结果表明，通过多阶段学习、精心构建的数据集以及CoT（思维链）/RL（强化学习）微调，这两个领域展现出强烈的正向迁移效应，并相互促进。我们提供了模型设计与训练方法的详细分析，以推动进一步研究。代码及模型已在https://github.com/XiaomiMiMo/MiMo-Embodied开源。

0

相关内容

MIMO

《具身智能发展报告（2025年）》，67页pdf

《具身智能发展报告（2025年）》，67页pdf

专知会员服务

24+阅读 · 2月1日

大模型赋能的具身智能：决策与具身学习综述

大模型赋能的具身智能：决策与具身学习综述

专知会员服务

48+阅读 · 2025年8月16日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

EAI（具身智能）：驱动通用人工智能与机器人产业的关键技术

EAI（具身智能）：驱动通用人工智能与机器人产业的关键技术

专知会员服务

56+阅读 · 2024年11月28日

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

专知会员服务

48+阅读 · 2024年9月4日

谷歌开源模型系列「Gemma」技术报告，中英文版

谷歌开源模型系列「Gemma」技术报告，中英文版

专知会员服务

47+阅读 · 2024年2月22日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

大规模MIMO异构网络的干扰管理方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

大规模MIMO系统基于结构化压缩感知的信道估计中导频设计新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

带有多种不确定的MIMO系统的自抗扰控制闭环稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

MIMO Systems Aided by Microwave Linear Analog Computers: Capacity-Achieving Architectures with Reduced Circuit Complexity

Arxiv

0+阅读 · 5月1日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

Arxiv

0+阅读 · 4月20日

DeepFleet: Multi-Agent Foundation Models for Mobile Robots

Arxiv

0+阅读 · 4月13日

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Arxiv

0+阅读 · 3月30日

Towards Embodied AI with MuscleMimic: Unlocking full-body musculoskeletal motor learning at scale

Arxiv

0+阅读 · 3月26日

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Arxiv

0+阅读 · 3月19日

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

Arxiv

0+阅读 · 3月19日

Memento-Skills: Let Agents Design Agents

Arxiv

0+阅读 · 3月19日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《具身智能发展报告（2025年）》，67页pdf

《具身智能发展报告（2025年）》，67页pdf

专知会员服务

24+阅读 · 2月1日

大模型赋能的具身智能：决策与具身学习综述

大模型赋能的具身智能：决策与具身学习综述

专知会员服务

48+阅读 · 2025年8月16日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

EAI（具身智能）：驱动通用人工智能与机器人产业的关键技术

EAI（具身智能）：驱动通用人工智能与机器人产业的关键技术

专知会员服务

56+阅读 · 2024年11月28日

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

专知会员服务

48+阅读 · 2024年9月4日

谷歌开源模型系列「Gemma」技术报告，中英文版

谷歌开源模型系列「Gemma」技术报告，中英文版

专知会员服务

47+阅读 · 2024年2月22日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

超越GPT-4？Google60页《Gemini-高性能多模态大模型》报告，详解技术测试等细节，附中英文版

专知会员服务

174+阅读 · 2023年12月7日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

【DeepMind-ICLR2020】MEMO-情景记忆的灵活组合的深层网络，A DEEP NETWORK FOR FLEXIBLE COMBINATION OF EPISODIC MEMORIES

专知会员服务

18+阅读 · 2020年2月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

再发力！Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新SOTA准确率

专知

48+阅读 · 2020年3月11日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

相关论文

MIMO Systems Aided by Microwave Linear Analog Computers: Capacity-Achieving Architectures with Reduced Circuit Complexity

Arxiv

0+阅读 · 5月1日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

Arxiv

0+阅读 · 4月20日

DeepFleet: Multi-Agent Foundation Models for Mobile Robots

Arxiv

0+阅读 · 4月13日

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Arxiv

0+阅读 · 3月30日

Towards Embodied AI with MuscleMimic: Unlocking full-body musculoskeletal motor learning at scale

Arxiv

0+阅读 · 3月26日

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Arxiv

0+阅读 · 3月19日

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

Arxiv

0+阅读 · 3月19日

Memento-Skills: Let Agents Design Agents

Arxiv

0+阅读 · 3月19日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

相关基金

大规模MIMO异构网络的干扰管理方案研究

国家自然科学基金

0+阅读 · 2015年12月31日

CS-MIMO雷达中测量矩阵的构造方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

零辅助数据MIMO雷达自适应检测问题研究

国家自然科学基金

7+阅读 · 2015年12月31日

大规模MIMO系统基于结构化压缩感知的信道估计中导频设计新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Massive MIMO 系统中接收端低复杂度检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

带有多种不确定的MIMO系统的自抗扰控制闭环稳定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员