Effective multi-human-robot collaboration is essential for expanding human-led operations in the challenging and high-risk underwater environment. For autonomous underwater vehicles (AUVs) to become true teammates, they must be able to comprehend their surroundings and recognize a diver's activities to offer assistance and ensure safety. Towards this goal, we introduce DAR-Net, a novel transformer-based framework that analyzes complex underwater scenes to classify diver activities. Our contribution lies in a semantically guided learning formulation that couples transformer-based temporal reasoning with pixel-level scene supervision. This multi-loss training strategy explicitly aligns global activity recognition with local human-robot interaction semantics, which is particularly critical in low-visibility underwater conditions. To address the significant challenge of data scarcity in this domain, we present the first-ever Underwater Diver Activity (UDA) dataset, a foundational resource containing over 2,600 annotated images with pixel-level masks. Through rigorous experimental evaluations in a controlled environment, we demonstrate that DAR-Net achieves promising accuracy in recognizing six distinct diver activities, outperforming state-of-the-art models. While this dataset provides a crucial baseline, our work serves as a pioneering step, laying the groundwork for future research and facilitating the development of more intelligent, collaborative underwater robotic systems.


翻译:有效的多人类-机器人协作对于在具有挑战性和高风险的深海环境中扩展人类主导操作至关重要。要使自主水下机器人(AUV)成为真正的队友,它们必须能够理解周围环境并识别潜水员的活动,以提供协助并确保安全。为实现这一目标,我们提出了DAR-Net,一种新颖的基于Transformer的框架,用于分析复杂水下场景并分类潜水员活动。我们的贡献在于一种语义引导的学习方法,它将基于Transformer的时间推理与像素级场景监督相结合。这种多损失训练策略明确地将全局活动识别与局部人机交互语义对齐,这在低能见度水下条件下尤为关键。为应对该领域数据稀缺的重大挑战,我们首次提出了水下潜水员活动(UDA)数据集,这是一个包含超过2600张带有像素级掩码的标注图像的基础资源。通过在受控环境中进行严格的实验评估,我们证明了DAR-Net在识别六种不同潜水员活动方面达到了令人满意的准确性,并超越了最先进的模型。尽管该数据集提供了关键基线,我们的工作作为一个开创性步骤,为未来研究奠定了基础,并促进了更智能、协作性水下机器人系统的开发。

0
下载
关闭预览

相关内容

采用扩散模型实现隐蔽通信的自主潜航器智能猎杀策略
专知会员服务
23+阅读 · 2025年3月27日
《改进水下恶劣条件下人机协作的机器视觉》252页
专知会员服务
30+阅读 · 2024年3月13日
《水下机器人的自然、鲁棒和多模态人机交互》345页
专知会员服务
38+阅读 · 2024年3月11日
人工智能时代智能化海战模式
科技导报
21+阅读 · 2019年7月5日
前沿:水下机器人及其导航系统
科学出版社
11+阅读 · 2019年6月22日
水下无人系统发展现状及关键技术
无人机
21+阅读 · 2018年1月5日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员