Autonomous Underwater Vehicles (AUVs) traditionally rely on complex, heavily engineered pipelines for perception, path planning, and motion control. This paper explores the feasibility of an end-to-end Deep Reinforcement Learning (DRL) approach that maps raw sensor data directly to thruster commands, reducing manual engineering. We propose a hierarchical reinforcement learning (HRL) architecture splitting the problem into two Markov Decision Processes. A High-Level (HL) policy operating at 2Hz processes raw $84 \times 84$ pixel monocular camera frames, stacked $100 \times 100$ pixel forward-looking imaging sonar, and proprioceptive data to generate spatial subgoals. Simultaneously, a Low-Level (LL) policy operating at 10Hz converts these subgoals into thruster commands. The HL policy is trained using Reinforcement Learning from Prior Demonstrations (RLPD) within a modified Sample-Efficient Robotic Reinforcement Learning (SERL) framework, while the LL policy utilizes Soft Actor-Critic (SAC) combined with Hindsight Experience Replay (HER). Evaluated in the high-fidelity HoloOcean simulator, our method demonstrates successful obstacle avoidance, achieving trajectory lengths closely approximating (within 4% to 6% of) an $\text{RRT}^*$ planning baseline. Furthermore, the learned policy exhibits strong robustness to simulated sensor noise and decreased visibility. While the system navigates familiar geometries effectively, experiments reveal generalization limitations when encountering unvisited areas with novel obstacle shapes. Ultimately, this work demonstrates the promise of sample-efficient, end-to-end DRL for underwater navigation using minimal computational hardware.


翻译:自主水下航行器传统上依赖复杂且需大量人工设计的感知、路径规划与运动控制流水线。本文探索了端到端深度强化学习方法的可行性,该方法将原始传感器数据直接映射至推进器指令,从而减少人工工程干预。我们提出了一种分层强化学习架构,将问题分解为两个马尔可夫决策过程。在2Hz频率运行的高层策略处理原始$84 \times 84$像素单目相机帧、堆叠的$100 \times 100$像素前视成像声纳及本体感知数据,以生成空间子目标;同时在10Hz频率运行的低层策略将这些子目标转换为推进器指令。高层策略采用基于先前演示的强化学习,在改进的样本高效机器人强化学习框架内进行训练,而低层策略则结合了软演员-评论家算法与事后经验回放。在高保真HoloOcean模拟器中的评估表明,我们的方法成功实现了避障,其轨迹长度与$\text{RRT}^*$规划基线相比误差在4%至6%以内。此外,学习得到的策略在模拟传感器噪声和能见度降低条件下展现出强鲁棒性。尽管系统能有效导航熟悉几何环境,实验揭示其在遭遇含新型障碍物形状的未访问区域时存在泛化局限。最终,本工作证明了样本高效的端到端深度强化学习在利用最小计算硬件实现水下导航方面的潜力。

0
下载
关闭预览

相关内容

自主水下航行器集群组网技术发展与展望
专知会员服务
39+阅读 · 2024年4月26日
分层强化学习在无人机领域应用综述
专知会员服务
54+阅读 · 2024年3月19日
基于深度强化学习的海上编队防空任务分配
专知会员服务
91+阅读 · 2023年8月14日
自主水下航行器路径规划技术综述及展望
专知会员服务
58+阅读 · 2023年7月6日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
前沿:水下机器人及其导航系统
科学出版社
11+阅读 · 2019年6月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国外无人水下航行器装备与技术现状及展望
无人机
14+阅读 · 2018年1月11日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员