Agricultural robots are serving as powerful assistants across a wide range of agricultural tasks, nevertheless, still heavily relying on manual operations or railway systems for movement. The AgriVLN method and the A2A benchmark pioneeringly extended Vision-and-Language Navigation (VLN) to the agricultural domain, enabling a robot to navigate to a target position following a natural language instruction. Unlike human binocular vision, most agricultural robots are only given a single camera for monocular vision, which results in limited spatial perception. To bridge this gap, we present the method of Agricultural Vision-and-Language Navigation with Monocular Depth Estimation (MDE-AgriVLN), in which we propose the MDE module generating depth features from RGB images, to assist the decision-maker on multimodal reasoning. When evaluated on the A2A benchmark, our MDE-AgriVLN method successfully increases Success Rate from 0.23 to 0.32 and decreases Navigation Error from 4.43m to 4.08m, demonstrating the state-of-the-art performance in the agricultural VLN domain. Code: https://github.com/AlexTraveling/MDE-AgriVLN.


翻译:农业机器人正作为强大的助手服务于广泛的农业任务,然而其移动仍严重依赖人工操作或轨道系统。AgriVLN方法与A2A基准率先将视觉与语言导航(VLN)扩展至农业领域,使机器人能够依据自然语言指令导航至目标位置。与人类的双目视觉不同,大多数农业机器人仅配备单目视觉的单摄像头,导致空间感知能力受限。为弥补这一差距,我们提出了基于单目深度估计的农业视觉与语言导航方法(MDE-AgriVLN),其中我们设计了可从RGB图像生成深度特征的MDE模块,以辅助决策器进行多模态推理。在A2A基准上的评估结果表明,我们的MDE-AgriVLN方法将成功率从0.23提升至0.32,并将导航误差从4.43米降低至4.08米,展现了在农业VLN领域最先进的性能。代码:https://github.com/AlexTraveling/MDE-AgriVLN。

0
下载
关闭预览

相关内容

基于视觉的无人机定位与导航方法研究综述
专知会员服务
21+阅读 · 2025年5月21日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
视觉语言导航:大模型时代的综述
专知会员服务
51+阅读 · 2024年7月10日
深度学习在农业领域的研究与应用
专知会员服务
23+阅读 · 2024年5月3日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
计算机视觉方向简介 | 基于单目视觉的三维重建算法
计算机视觉life
32+阅读 · 2019年4月9日
【AGV】仓库内多AGV协作的全局路径规划算法的研究
产业智能官
28+阅读 · 2018年11月10日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基于视觉的无人机定位与导航方法研究综述
专知会员服务
21+阅读 · 2025年5月21日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
视觉语言导航:大模型时代的综述
专知会员服务
51+阅读 · 2024年7月10日
深度学习在农业领域的研究与应用
专知会员服务
23+阅读 · 2024年5月3日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员