基于神经风格化的端到端示例式模拟到真实强化学习策略迁移及其在机器人切割中的应用 (End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting) - 专知论文

会员服务 ·

0

学习策略 · 切割 · 机器人 · 神经风格化 · 风格化 ·

End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting

翻译：基于神经风格化的端到端示例式模拟到真实强化学习策略迁移及其在机器人切割中的应用

Jamie Hathaway,Alireza Rastegarpanah,Rustam Stolkin

from arxiv, 14 pages, 9 figures. Submitted to Nature Scientific Reports

Whereas reinforcement learning has been applied with success to a range of robotic control problems in complex, uncertain environments, reliance on extensive data - typically sourced from simulation environments - limits real-world deployment due to the domain gap between simulated and physical systems, coupled with limited real-world sample availability. We propose a novel method for sim-to-real transfer of reinforcement learning policies, based on a reinterpretation of neural style transfer from image processing to synthesise novel training data from unpaired unlabelled real world datasets. We employ a variational autoencoder to jointly learn self-supervised feature representations for style transfer and generate weakly paired source-target trajectories to improve physical realism of synthesised trajectories. We demonstrate the application of our approach based on the case study of robot cutting of unknown materials. Compared to baseline methods, including our previous work, CycleGAN, and conditional variational autoencoder-based time series translation, our approach achieves improved task completion time and behavioural stability with minimal real-world data. Our framework demonstrates robustness to geometric and material variation, and highlights the feasibility of policy adaptation in challenging contact-rich tasks where real-world reward information is unavailable.

翻译：尽管强化学习已成功应用于复杂不确定环境中的一系列机器人控制问题，但由于模拟系统与物理系统之间存在领域差距，加之真实世界样本获取有限，对大量数据（通常来源于仿真环境）的依赖限制了其在现实世界中的部署。我们提出了一种新颖的强化学习策略模拟到真实迁移方法，该方法通过将图像处理中的神经风格迁移技术重新阐释，从未配对、无标签的真实世界数据集中合成新的训练数据。我们采用变分自编码器联合学习用于风格迁移的自监督特征表示，并生成弱配对的源-目标轨迹以提高合成轨迹的物理真实性。我们以机器人切割未知材料的案例研究展示了所提方法的应用。与基线方法（包括我们先前的工作、CycleGAN以及基于条件变分自编码器的时间序列转换方法）相比，我们的方法在仅需极少真实世界数据的情况下，实现了更优的任务完成时间和行为稳定性。我们的框架展现出对几何与材料变化的鲁棒性，并凸显了在缺乏真实世界奖励信息的、接触密集的挑战性任务中进行策略适应的可行性。

0

相关内容

学习策略

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

《机器人强化学习技术进展》34页

《机器人强化学习技术进展》34页

专知会员服务

38+阅读 · 2025年7月16日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 2025年7月1日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

深度强化学习在智能制造中的应用展望综述

深度强化学习在智能制造中的应用展望综述

专知会员服务

98+阅读 · 2021年1月28日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

深度 | 迁移学习全面概述：从基本概念到相关研究

深度 | 迁移学习全面概述：从基本概念到相关研究

七月在线实验室

15+阅读 · 2017年8月15日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

Direction Matters: Learning Force Direction Enables Sim-to-Real Contact-Rich Manipulation

Arxiv

0+阅读 · 2月15日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

Arxiv

0+阅读 · 2月7日

XTransfer: Modality-Agnostic Few-Shot Model Transfer for Human Sensing at the Edge

Arxiv

0+阅读 · 2月6日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月3日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

神经风格化

相关VIP内容

【斯坦福博士论文】移动操作机器人的学习系统构建研究

【斯坦福博士论文】移动操作机器人的学习系统构建研究

专知会员服务

14+阅读 · 2025年11月14日

《机器人强化学习技术进展》34页

《机器人强化学习技术进展》34页

专知会员服务

38+阅读 · 2025年7月16日

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

【博士论文】大规模人工智能中的强化学习智能体：高效训练与更严谨分析

专知会员服务

16+阅读 · 2025年7月1日

面向机器人系统的虚实迁移强化学习综述

面向机器人系统的虚实迁移强化学习综述

专知会员服务

44+阅读 · 2024年2月8日

基于神经网络的机器人学习与控制：回顾与展望

基于神经网络的机器人学习与控制：回顾与展望

专知会员服务

33+阅读 · 2023年9月10日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

深度强化学习在智能制造中的应用展望综述

深度强化学习在智能制造中的应用展望综述

专知会员服务

98+阅读 · 2021年1月28日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

深度 | 迁移学习全面概述：从基本概念到相关研究

深度 | 迁移学习全面概述：从基本概念到相关研究

七月在线实验室

15+阅读 · 2017年8月15日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Arxiv

0+阅读 · 2月18日

Direction Matters: Learning Force Direction Enables Sim-to-Real Contact-Rich Manipulation

Arxiv

0+阅读 · 2月15日

TactAlign: Human-to-Robot Policy Transfer via Tactile Alignment

Arxiv

0+阅读 · 2月14日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

Arxiv

0+阅读 · 2月7日

XTransfer: Modality-Agnostic Few-Shot Model Transfer for Human Sensing at the Edge

Arxiv

0+阅读 · 2月6日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月3日

Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月27日

AnyTask: an Automated Task and Data Generation Framework for Advancing Sim-to-Real Policy Learning

Arxiv

0+阅读 · 1月20日

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

Arxiv

0+阅读 · 1月16日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

39+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员