When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning - 专知论文

会员服务 ·

0

Learning · 在线 · INTERACT · 回合 · 样本 ·

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

翻译：当生活给你行为克隆，就创建Q函数：从行为克隆中提取Q值用于机器人强化学习

Lakshita Dodeja,Ondrej Biza,Shivam Vats,Stephen Hart,Stefanie Tellex,Robin Walters,Karl Schmeckpeper,Thomas Weng

Behavior Cloning (BC) has emerged as a highly effective paradigm for robot learning. However, BC lacks a self-guided mechanism for online improvement after demonstrations have been collected. Existing offline-to-online learning methods often cause policies to replace previously learned good actions due to a distribution mismatch between offline data and online learning. In this work, we propose Q2RL, Q-Estimation and Q-Gating from BC for Reinforcement Learning, an algorithm for efficient offline-to-online learning. Our method consists of two parts: (1) Q-Estimation extracts a Q-function from a BC policy using a few interaction steps with the environment, followed by online RL with (2) Q-Gating, which switches between BC and RL policy actions based on their respective Q-values to collect samples for RL policy training. Across manipulation tasks from D4RL and robomimic benchmarks, Q2RL outperforms SOTA offline-to-online learning baselines on success rate and time to convergence. Q2RL is efficient enough to be applied in an on-robot RL setting, learning robust policies for contact-rich and high precision manipulation tasks such as pipe assembly and kitting, in 1-2 hours of online interaction, achieving success rates of up to 100% and up to 3.75x improvement against the original BC policy. Code and video are available at https://pages.rai-inst.com/q2rl_website/

翻译：行为克隆已成为机器人学习的高效范式。然而，行为克隆在采集示范数据后缺乏在线改进的自引导机制。现有的离线到在线学习方法常因离线数据与在线学习之间的分布不匹配，导致策略用新学的不良动作替代先前学习的优秀动作。本文提出Q2RL算法（从行为克隆中提取Q估计与Q门控用于强化学习），这是一种高效的离线到在线学习方法。该方法包含两部分：（1）Q估计——通过与环境的少量交互步骤从行为克隆策略中提取Q函数，随后进行在线强化学习；（2）Q门控——根据行为克隆策略与强化学习策略动作各自的Q值进行切换，为强化学习策略训练采集样本。在D4RL和robomimic基准的操控任务中，Q2RL在成功率和收敛时间上均优于最先进的离线到在线学习基线。Q2RL效率足以应用于机器人实机强化学习场景，可在1-2小时的在线交互中为管道组装和零件装配等高精度接触操控任务学习鲁棒策略，最高实现100%的成功率，较原始行为克隆策略提升高达3.75倍。代码与视频见https://pages.rai-inst.com/q2rl_website/

0

相关内容

Learning

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

15+阅读 · 5月16日

机器人中的深度生成模型：多模态演示学习的综述

机器人中的深度生成模型：多模态演示学习的综述

专知会员服务

40+阅读 · 2024年8月9日

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

专知会员服务

26+阅读 · 2024年8月4日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

专知会员服务

15+阅读 · 2022年6月20日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Reversal Q-Learning

Arxiv

0+阅读 · 6月16日

Deep Q-Learning on Hölder Spaces

Arxiv

0+阅读 · 6月15日

Steering Multirobot Behavior via Closed-Loop Affine Activation Editing

Arxiv

0+阅读 · 6月9日

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

Arxiv

0+阅读 · 6月9日

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Arxiv

0+阅读 · 6月6日

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Arxiv

0+阅读 · 6月1日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 5月6日

Efficient Model-Based Reinforcement Learning for Robot Control via Online Optimization

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

《CommandSwarm：面向机器人集群的安全感知自然语言到行为树生成》

专知会员服务

15+阅读 · 5月16日

机器人中的深度生成模型：多模态演示学习的综述

机器人中的深度生成模型：多模态演示学习的综述

专知会员服务

40+阅读 · 2024年8月9日

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

【ICML2024教程】策略机器学习：如何处理“有行为”的数据进行学习

专知会员服务

26+阅读 · 2024年8月4日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

如何对齐学习？伯克利博士论文《人本主义奖励设计》，119页pdf阐述大模型中对齐人类输入设计

专知会员服务

47+阅读 · 2023年11月20日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

J. Med. Chem.｜TocoDecoy:针对机器学习打分函数训练和测试的无隐藏偏差的数据集构建新方法

专知会员服务

15+阅读 · 2022年6月20日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

强化学习开篇：Q-Learning原理详解

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

入门 | 通过 Q-learning 深入理解强化学习

入门 | 通过 Q-learning 深入理解强化学习

机器之心

12+阅读 · 2018年4月17日

一个强化学习 Q-learning 算法的简明教程

一个强化学习 Q-learning 算法的简明教程

数据挖掘入门与实战

10+阅读 · 2018年3月18日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Reversal Q-Learning

Arxiv

0+阅读 · 6月16日

Deep Q-Learning on Hölder Spaces

Arxiv

0+阅读 · 6月15日

Steering Multirobot Behavior via Closed-Loop Affine Activation Editing

Arxiv

0+阅读 · 6月9日

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

Arxiv

0+阅读 · 6月9日

CLASP: Language-Driven Robot Skill Selection and Composition using Task-Parameterized Learning

Arxiv

0+阅读 · 6月6日

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Arxiv

0+阅读 · 6月1日

Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

Arxiv

0+阅读 · 5月19日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 5月6日

Efficient Model-Based Reinforcement Learning for Robot Control via Online Optimization

Arxiv

0+阅读 · 5月6日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员