Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application - 专知论文

会员服务 ·

0

对接 · 水下 · 碰撞 · 深度强化学习 · 强化学习 ·

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

翻译：面向水下对接应用的深度强化学习仿真到现实适应方法

Alaaeddine Chaarani,Narcis Palomeras,Pere Ridao

from arxiv, Currently under review by IROS 2026

Deep Reinforcement Learning (DRL) offers a robust alternative to traditional control methods for autonomous underwater docking, particularly in adapting to unpredictable environmental conditions. However, bridging the "sim-to-real" gap and managing high training latencies remain significant bottlenecks for practical deployment. This paper presents a systematic approach for autonomous docking using the Girona Autonomous Underwater Vehicle (AUV) by leveraging a high-fidelity digital twin environment. We adapted the Stonefish simulator into a multiprocessing RL framework to significantly accelerate the learning process while incorporating realistic AUV dynamics, collision models, and sensor noise. Using the Proximal Policy Optimization (PPO) algorithm, we developed a 6-DoF control policy trained in a headless environment with randomized starting positions to ensure generalized performance. Our reward structure accounts for distance, orientation, action smoothness, and adaptive collision penalties to facilitate soft docking. Experimental results demonstrate that the agent achieved a success rate of over 90% in simulation. Furthermore, successful validation in a physical test tank confirmed the efficacy of the sim-to-reality adaptation, with the DRL controller exhibiting emergent behaviors such as pitch-based braking and yaw oscillations to assist in mechanical alignment.

翻译：深度强化学习（DRL）为自主水下对接提供了一种比传统控制方法更鲁棒的替代方案，尤其是在适应不可预测的环境条件方面。然而，弥合"仿真到现实"的差距以及管理高训练延迟仍然是实际部署的重大瓶颈。本文提出了一种利用高保真数字孪生环境，使用Girona自主水下航行器（AUV）进行自主对接的系统性方法。我们将Stonefish仿真器适配到一个多进程强化学习框架中，以显著加速学习过程，同时融入了真实的AUV动力学、碰撞模型和传感器噪声。使用近端策略优化（PPO）算法，我们开发了一个在无头环境中训练的六自由度控制策略，并采用随机起始位置以确保泛化性能。我们的奖励结构考虑了距离、朝向、动作平滑度以及自适应碰撞惩罚，以促进软对接。实验结果表明，智能体在仿真中实现了超过90%的成功率。此外，在物理测试水池中的成功验证证实了仿真到现实适应的有效性，DRL控制器表现出了一些涌现行为，例如基于俯仰的制动和偏航振荡，以协助机械对准。

0

相关内容

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度强化学习在水下目标识别中的应用研究

深度强化学习在水下目标识别中的应用研究

专知会员服务

25+阅读 · 2024年9月3日

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

专知会员服务

35+阅读 · 2024年8月8日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

专知会员服务

45+阅读 · 2023年12月26日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

动态不确定性条件下基于混杂约束满足问题的水下移动传感器网络节点自定位方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于线结构光的水下自主作业系统目标识别与定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

准确大气辐射传输下的水体辐射传输研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于确定学习方法的无人水面艇智能控制研究

国家自然科学基金

17+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Underwater Embodied Intelligence for Autonomous Robots: A Constraint-Coupled Perspective on Planning, Control, and Deployment

Arxiv

1+阅读 · 3月8日

Contact-Safe Reinforcement Learning with ProMP Reparameterization and Energy Awareness

Arxiv

0+阅读 · 3月6日

Sim2Sea: Sim-to-Real Policy Transfer for Maritime Vessel Navigation in Congested Waters

Arxiv

0+阅读 · 3月4日

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

From Simulation to Reality: Practical Deep Reinforcement Learning-based Link Adaptation for Cellular Networks

Arxiv

0+阅读 · 2月28日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Arxiv

0+阅读 · 2月11日

Multi-Task Reinforcement Learning of Drone Aerobatics by Exploiting Geometric Symmetries

Arxiv

0+阅读 · 2月11日

SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity

Arxiv

0+阅读 · 2月9日

Fast Policy Learning for 6-DOF Position Control of Underwater Vehicles

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

12+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

5+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

9+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

5+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度强化学习在水下目标识别中的应用研究

深度强化学习在水下目标识别中的应用研究

专知会员服务

25+阅读 · 2024年9月3日

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

深度强化学习在机器人领域的应用：现实世界中的成功案例综述

专知会员服务

35+阅读 · 2024年8月8日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

专知会员服务

45+阅读 · 2023年12月26日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Underwater Embodied Intelligence for Autonomous Robots: A Constraint-Coupled Perspective on Planning, Control, and Deployment

Arxiv

1+阅读 · 3月8日

Contact-Safe Reinforcement Learning with ProMP Reparameterization and Energy Awareness

Arxiv

0+阅读 · 3月6日

Sim2Sea: Sim-to-Real Policy Transfer for Maritime Vessel Navigation in Congested Waters

Arxiv

0+阅读 · 3月4日

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Arxiv

0+阅读 · 3月4日

From Simulation to Reality: Practical Deep Reinforcement Learning-based Link Adaptation for Cellular Networks

Arxiv

0+阅读 · 2月28日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月17日

APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Arxiv

0+阅读 · 2月11日

Multi-Task Reinforcement Learning of Drone Aerobatics by Exploiting Geometric Symmetries

Arxiv

0+阅读 · 2月11日

SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity

Arxiv

0+阅读 · 2月9日

Fast Policy Learning for 6-DOF Position Control of Underwater Vehicles

Arxiv

0+阅读 · 1月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

动态不确定性条件下基于混杂约束满足问题的水下移动传感器网络节点自定位方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于线结构光的水下自主作业系统目标识别与定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

准确大气辐射传输下的水体辐射传输研究与应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于确定学习方法的无人水面艇智能控制研究

国家自然科学基金

17+阅读 · 2014年12月31日

重力/重力梯度补偿水下惯性导航系统理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员