Autonomous underwater vehicles are required to perform multiple tasks adaptively and in an explainable manner under dynamic, uncertain conditions and limited sensing, challenges that classical controllers struggle to address. This demands robust, generalizable, and inherently interpretable control policies for reliable long-term monitoring. Reinforcement learning, particularly multi-task RL, overcomes these limitations by leveraging shared representations to enable efficient adaptation across tasks and environments. However, while such policies show promising results in simulation and controlled experiments, they yet remain opaque and offer limited insight into the agent's internal decision-making, creating gaps in transparency, trust, and safety that hinder real-world deployment. The internal policy structure and task-specific specialization remain poorly understood. To address these gaps, we analyze the internal structure of a pretrained multi-task reinforcement learning network in the HoloOcean simulator for underwater navigation by identifying and comparing task-specific subnetworks responsible for navigating toward different species. We find that in a contextual multi-task reinforcement learning setting with related tasks, the network uses only about 1.5% of its weights to differentiate between tasks. Of these, approximately 85% connect the context-variable nodes in the input layer to the next hidden layer, highlighting the importance of context variables in such settings. Our approach provides insights into shared and specialized network components, useful for efficient model editing, transfer learning, and continual learning for underwater monitoring through a contextual multi-task reinforcement learning method.


翻译:自主水下航行器需在动态、不确定环境及有限感知条件下,以可解释的方式自适应完成多项任务,这是经典控制器难以应对的挑战。这要求具备稳健、可泛化且固有可解释的控制策略,以实现可靠的长期监测。强化学习(尤其是多任务强化学习)通过利用共享表征实现跨任务与环境的有效自适应,克服了上述局限。然而,尽管此类策略在仿真与受控实验中展现出前景,其决策过程仍不透明,对智能体内部决策机制的洞察有限,导致在透明度、可信度与安全性方面存在缺口,阻碍了实际部署。当前对策略内部结构及任务特定专业化机制的理解仍显不足。为弥补这些不足,我们通过识别并比较负责导航至不同物种的任务特定子网络,分析了用于水下导航的预训练多任务强化学习网络在HoloOcean模拟器中的内部结构。研究发现,在涉及相关任务的上下文多任务强化学习场景中,网络仅使用约1.5%的权重区分不同任务。其中,约85%的此类权重连接输入层中的上下文变量节点与下一隐藏层,凸显了上下文变量在此类设置中的关键作用。该方法揭示了共享与专用网络组件的特性,有助于通过上下文多任务强化学习方法实现水下监测中的高效模型编辑、迁移学习与持续学习。

0
下载
关闭预览

相关内容

《基于图神经网络与强化学习的自主空战决策研究》
专知会员服务
32+阅读 · 2025年5月15日
深度强化学习在水下目标识别中的应用研究
专知会员服务
26+阅读 · 2024年9月3日
自主水下航行器集群组网技术发展与展望
专知会员服务
39+阅读 · 2024年4月26日
自主水下航行器路径规划技术综述及展望
专知会员服务
58+阅读 · 2023年7月6日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
前沿:水下机器人及其导航系统
科学出版社
11+阅读 · 2019年6月22日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
【学科发展报告】无人船
中国自动化学会
29+阅读 · 2019年1月8日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员