RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation - 专知论文

会员服务 ·

0

预训练 · 操作 · 潜在 · 流匹配 · 微调 ·

RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation

翻译：RFS：基于残差流引导的强化学习用于灵巧操作

Entong Su,Tyler Westenbroek,Anusha Nagabandi,Abhishek Gupta

Imitation learning has emerged as an effective approach for bootstrapping sequential decision-making in robotics, achieving strong performance even in high-dimensional dexterous manipulation tasks. Recent behavior cloning methods further leverage expressive generative models, such as diffusion models and flow matching, to represent multimodal action distributions. However, policies pretrained in this manner often exhibit limited generalization and require additional fine-tuning to achieve robust performance at deployment time. Such adaptation must preserve the global exploration benefits of pretraining while enabling rapid correction of local execution errors. We propose Residual Flow Steering(RFS), a data-efficient reinforcement learning framework for adapting pretrained generative policies. RFS steers a pretrained flow-matching policy by jointly optimizing a residual action and a latent noise distribution, enabling complementary forms of exploration: local refinement through residual corrections and global exploration through latent-space modulation. This design allows efficient adaptation while retaining the expressive structure of the pretrained policy. We demonstrate the effectiveness of RFS on dexterous manipulation tasks, showing efficient fine-tuning in both simulation and real-world settings when adapting pretrained base policies. Project website:https://weirdlabuw.github.io/rfs.

翻译：模仿学习已成为机器人学中引导序列决策的有效方法，即使在高维灵巧操作任务中也表现出色。近期的行为克隆方法进一步利用扩散模型和流匹配等表达能力强的生成模型来表示多模态动作分布。然而，以此方式预训练的策略通常泛化能力有限，需要在部署时进行额外的微调以实现鲁棒性能。这种适应过程必须保留预训练的全局探索优势，同时能够快速纠正局部执行误差。我们提出残差流引导（RFS），一种用于适应预训练生成策略的数据高效强化学习框架。RFS通过联合优化残差动作和潜在噪声分布来引导预训练的流匹配策略，从而实现互补的探索形式：通过残差校正进行局部优化，通过潜在空间调制进行全局探索。该设计在保留预训练策略表达结构的同时实现了高效适应。我们在灵巧操作任务上验证了RFS的有效性，展示了在仿真和真实场景中适应预训练基础策略时的高效微调能力。项目网站：https://weirdlabuw.github.io/rfs。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

专知会员服务

42+阅读 · 2023年11月4日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

66+阅读 · 2022年12月21日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知会员服务

121+阅读 · 2022年2月16日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

43+阅读 · 2021年1月11日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

RM-RL: Role-Model Reinforcement Learning for Precise Robot Manipulation

Arxiv

0+阅读 · 2月12日

Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning

Arxiv

0+阅读 · 2月11日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Temporally Coherent Imitation Learning via Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 48分钟前

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 50分钟前

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

深度强化学习与模仿学习导论

深度强化学习与模仿学习导论

专知会员服务

25+阅读 · 2025年12月10日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

28+阅读 · 2024年1月2日

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

【CMU博士论文】强化学习的泛化灵巧性，182页pdf

专知会员服务

42+阅读 · 2023年11月4日

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

【牛津大学博士论文】控制微分方程在流数据中的机器学习应用，166页pdf

专知会员服务

18+阅读 · 2023年1月13日

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作，275页pdf

专知会员服务

66+阅读 · 2022年12月21日

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

强化学习在机器人中的应用，附视频与Slides，Animesh Garg, UoT

专知会员服务

37+阅读 · 2022年7月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知会员服务

121+阅读 · 2022年2月16日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

43+阅读 · 2021年1月11日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

【强化学习】叶志豪：介绍强化学习及其在 NLP 上的应用｜分享总结

产业智能官

20+阅读 · 2018年7月24日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

Arxiv

0+阅读 · 3月10日

RM-RL: Role-Model Reinforcement Learning for Precise Robot Manipulation

Arxiv

0+阅读 · 2月12日

Flow-Enabled Generalization to Human Demonstrations in Few-Shot Imitation Learning

Arxiv

0+阅读 · 2月11日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning

Arxiv

0+阅读 · 2月2日

Flexible Multitask Learning with Factorized Diffusion Policy

Arxiv

0+阅读 · 2月1日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Temporally Coherent Imitation Learning via Latent Action Flow Matching for Robotic Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员