Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies - 专知论文

会员服务 ·

0

机器人 · 通用机器人 · 时域 · 预训练 · 强化学习 ·

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

翻译：边部署边学习：面向通用机器人策略的车队级强化学习框架

Yi Wang,Xinchen Li,Pengwei Xie,Pu Yang,Buqing Nie,Yunuo Cai,Qinglin Zhang,Chendi Qu,Jeffrey Wu,Jianheng Song,Xinlin Ren,Jingshun Huang,Mingjie Pan,Siyuan Feng,Zhi Chen,Jianlan Luo

Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.

翻译：通用机器人策略日益受益于大规模预训练，但仅靠离线数据无法支撑稳健的现实世界部署。已部署的机器人会遇到固定演示数据集无法完全捕捉的分布偏移、长尾故障、任务变化及人类纠正机会。我们提出"边部署边学习"（LWD）框架，一种面向通用视觉-语言-动作（VLA）策略的车队级离线到在线强化学习持续后训练方法。该框架以预训练VLA策略为起点，通过利用机器人车队采集的自主轨迹数据与人工干预数据，形成部署、共享物理经验、策略改进与重新部署之间的闭环。为从异构稀疏奖励的车队数据中实现稳定学习，LWD结合了分布隐式价值学习（DIVL）进行鲁棒价值估计，以及伴随匹配Q学习（QAM）实现基于流的VLA动作生成器中的策略提取。我们在包含八项真实世界操作任务的16台双臂机器人车队上验证了LWD，涵盖语义级杂货补货与3-5分钟长时域任务。单一通用策略随着车队经验积累持续提升，最终达到95%平均成功率，其中长时域任务获益最显著。

0

相关内容

机器人

机器人（英语：Robot）包括一切模拟人类行为或思想与模拟其他生物的机械（如机器狗，机器猫等）。狭义上对机器人的定义还有很多分类法及争议，有些电脑程序甚至也被称为机器人。在当代工业中，机器人指能自动运行任务的人造机器设备，用以取代或协助人类工作，一般会是机电设备，由计算机程序或是电子电路控制。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CMU博士论文】通过上下文学习实现通用机器人控制

【CMU博士论文】通过上下文学习实现通用机器人控制

专知会员服务

14+阅读 · 5月15日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【CMU博士论文】构建通用机器人生成范式：基础设施、扩展性与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、扩展性与策略学习

专知会员服务

30+阅读 · 2024年12月6日

来自互联网视频的通用机器人学习：综述

来自互联网视频的通用机器人学习：综述

专知会员服务

28+阅读 · 2024年5月4日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

《使用强化学习的无人作战飞行器机队协同规划》12页论文

《使用强化学习的无人作战飞行器机队协同规划》12页论文

专知会员服务

165+阅读 · 2022年11月14日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

20+阅读 · 2019年11月5日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

Arxiv

0+阅读 · 4月27日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月9日

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

Arxiv

0+阅读 · 4月6日

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Arxiv

0+阅读 · 4月1日

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Arxiv

0+阅读 · 4月1日

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Arxiv

0+阅读 · 3月31日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs

Arxiv

0+阅读 · 3月19日

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

通用机器人

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【CMU博士论文】通过上下文学习实现通用机器人控制

【CMU博士论文】通过上下文学习实现通用机器人控制

专知会员服务

14+阅读 · 5月15日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、规模化与策略学习

专知会员服务

23+阅读 · 2025年2月9日

【CMU博士论文】构建通用机器人生成范式：基础设施、扩展性与策略学习

【CMU博士论文】构建通用机器人生成范式：基础设施、扩展性与策略学习

专知会员服务

30+阅读 · 2024年12月6日

来自互联网视频的通用机器人学习：综述

来自互联网视频的通用机器人学习：综述

专知会员服务

28+阅读 · 2024年5月4日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

《使用强化学习的无人作战飞行器机队协同规划》12页论文

《使用强化学习的无人作战飞行器机队协同规划》12页论文

专知会员服务

165+阅读 · 2022年11月14日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

20+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

Arxiv

0+阅读 · 4月27日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Arxiv

0+阅读 · 4月9日

FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control

Arxiv

0+阅读 · 4月6日

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Arxiv

0+阅读 · 4月1日

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Arxiv

0+阅读 · 4月1日

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Arxiv

0+阅读 · 3月31日

Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning

Arxiv

0+阅读 · 3月23日

Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs

Arxiv

0+阅读 · 3月19日

Grounding Robot Generalization in Training Data via Retrieval-Augmented VLMs

Arxiv

0+阅读 · 3月18日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员