$π_0$：一种用于通用机器人控制的视觉-语言-动作流模型 ($π_0$: A Vision-Language-Action Flow Model for General Robot Control) - 专知论文

会员服务 ·

0

机器人 · 机器人控制 · 系统 · 流模型 · 机器人学 ·

$π_0$: A Vision-Language-Action Flow Model for General Robot Control

翻译：$π_0$：一种用于通用机器人控制的视觉-语言-动作流模型

Kevin Black,Noah Brown,Danny Driess,Adnan Esmail,Michael Equi,Chelsea Finn,Niccolo Fusai,Lachy Groom,Karol Hausman,Brian Ichter,Szymon Jakubczak,Tim Jones,Liyiming Ke,Sergey Levine,Adrian Li-Bell,Mohith Mothukuri,Suraj Nair,Karl Pertsch,Lucy Xiaoyang Shi,James Tanner,Quan Vuong,Anna Walling,Haohuan Wang,Ury Zhilinsky

from arxiv, See project website for videos: https://physicalintelligence.company/blog/pi0 Published in RSS 2025

Robot learning holds tremendous promise to unlock the full potential of flexible, general, and dexterous robot systems, as well as to address some of the deepest questions in artificial intelligence. However, bringing robot learning to the level of generality required for effective real-world systems faces major obstacles in terms of data, generalization, and robustness. In this paper, we discuss how generalist robot policies (i.e., robot foundation models) can address these challenges, and how we can design effective generalist robot policies for complex and highly dexterous tasks. We propose a novel flow matching architecture built on top of a pre-trained vision-language model (VLM) to inherit Internet-scale semantic knowledge. We then discuss how this model can be trained on a large and diverse dataset from multiple dexterous robot platforms, including single-arm robots, dual-arm robots, and mobile manipulators. We evaluate our model in terms of its ability to perform tasks in zero shot after pre-training, follow language instructions from people and from a high-level VLM policy, and its ability to acquire new skills via fine-tuning. Our results cover a wide variety of tasks, such as laundry folding, table cleaning, and assembling boxes.

翻译：机器人学习具有巨大的潜力，能够释放灵活、通用且灵巧的机器人系统的全部潜能，并解决人工智能领域一些最深刻的问题。然而，将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着重大障碍。本文探讨了通用型机器人策略（即机器人基础模型）如何应对这些挑战，以及如何为复杂且高度灵巧的任务设计有效的通用型机器人策略。我们提出了一种新颖的流匹配架构，该架构构建在预训练的视觉-语言模型之上，以继承互联网规模的语义知识。随后，我们讨论了如何利用来自多个灵巧机器人平台（包括单臂机器人、双臂机器人和移动机械臂）的大型多样化数据集来训练该模型。我们从模型在预训练后执行零样本任务的能力、遵循来自人类和高级VLM策略的语言指令的能力，以及通过微调获取新技能的能力等方面评估了该模型。我们的实验结果涵盖了多种任务，例如叠衣服、清洁桌面和组装箱子。

0

相关内容

机器人

机器人（英语：Robot）包括一切模拟人类行为或思想与模拟其他生物的机械（如机器狗，机器猫等）。狭义上对机器人的定义还有很多分类法及争议，有些电脑程序甚至也被称为机器人。在当代工业中，机器人指能自动运行任务的人造机器设备，用以取代或协助人类工作，一般会是机电设备，由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【博士论文】走向通用智能机器人：让其无处不适、随处可用

【博士论文】走向通用智能机器人：让其无处不适、随处可用

专知会员服务

17+阅读 · 2025年11月18日

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

19+阅读 · 2025年3月11日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【UIUC博士论文】《从视频中进行机器人学习》

【UIUC博士论文】《从视频中进行机器人学习》

专知会员服务

25+阅读 · 2024年12月20日

【CMU博士论文】构建自适应性强的通用机器人，248页pdf

【CMU博士论文】构建自适应性强的通用机器人，248页pdf

专知会员服务

37+阅读 · 2024年6月10日

大模型如何用于机器人？CMU谷歌等最新《基于基础模型的通用机器人》综述，详解机器人技术基础模型

大模型如何用于机器人？CMU谷歌等最新《基于基础模型的通用机器人》综述，详解机器人技术基础模型

专知会员服务

65+阅读 · 2023年12月16日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

专知

46+阅读 · 2019年12月9日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

Language Movement Primitives: Grounding Language Models in Robot Motion

Arxiv

0+阅读 · 2月2日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

BTGenBot-2: Efficient Behavior Tree Generation with Small Language Models

Arxiv

0+阅读 · 2月2日

A Universal Large Language Model -- Drone Command and Control Interface

Arxiv

0+阅读 · 1月21日

DexH2R: Task-oriented Dexterous Manipulation from Human to Robots

Arxiv

0+阅读 · 1月13日

RoboReward: General-Purpose Vision-Language Reward Models for Robotics

Arxiv

0+阅读 · 1月8日

Genie Sim 3.0 : A High-Fidelity Comprehensive Simulation Platform for Humanoid Robot

Arxiv

0+阅读 · 1月5日

RoboReward: General-Purpose Vision-Language Reward Models for Robotics

Arxiv

0+阅读 · 1月2日

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

机器人控制

相关VIP内容

【博士论文】走向通用智能机器人：让其无处不适、随处可用

【博士论文】走向通用智能机器人：让其无处不适、随处可用

专知会员服务

17+阅读 · 2025年11月18日

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

【牛津博士论文】面向视觉、物理与语言应用的可信机器学习模型

专知会员服务

19+阅读 · 2025年10月5日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

19+阅读 · 2025年3月11日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【UIUC博士论文】《从视频中进行机器人学习》

【UIUC博士论文】《从视频中进行机器人学习》

专知会员服务

25+阅读 · 2024年12月20日

【CMU博士论文】构建自适应性强的通用机器人，248页pdf

【CMU博士论文】构建自适应性强的通用机器人，248页pdf

专知会员服务

37+阅读 · 2024年6月10日

大模型如何用于机器人？CMU谷歌等最新《基于基础模型的通用机器人》综述，详解机器人技术基础模型

大模型如何用于机器人？CMU谷歌等最新《基于基础模型的通用机器人》综述，详解机器人技术基础模型

专知会员服务

65+阅读 · 2023年12月16日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

【UMD开放经典书】机器学习课程简明书，19章227页pdf，带你学习ML

专知

46+阅读 · 2019年12月9日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

【Science机器人2019子刊AI5篇新论文】不止模仿：通过学习概念的认知程序实现机器人零数据任务迁移

专知

10+阅读 · 2019年1月18日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【机器人】机器人PID控制

【机器人】机器人PID控制

产业智能官

10+阅读 · 2018年11月25日

相关论文

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

Language Movement Primitives: Grounding Language Models in Robot Motion

Arxiv

0+阅读 · 2月2日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

BTGenBot-2: Efficient Behavior Tree Generation with Small Language Models

Arxiv

0+阅读 · 2月2日

A Universal Large Language Model -- Drone Command and Control Interface

Arxiv

0+阅读 · 1月21日

DexH2R: Task-oriented Dexterous Manipulation from Human to Robots

Arxiv

0+阅读 · 1月13日

RoboReward: General-Purpose Vision-Language Reward Models for Robotics

Arxiv

0+阅读 · 1月8日

Genie Sim 3.0 : A High-Fidelity Comprehensive Simulation Platform for Humanoid Robot

Arxiv

0+阅读 · 1月5日

RoboReward: General-Purpose Vision-Language Reward Models for Robotics

Arxiv

0+阅读 · 1月2日

PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies

Arxiv

0+阅读 · 2025年12月30日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

14+阅读 · 2016年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

50+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员