Agricultural robots are serving as powerful assistants across a wide range of agricultural tasks, nevertheless, still heavily relying on manual operations or railway systems for movement. The AgriVLN method and the A2A benchmark pioneeringly extended Vision-and-Language Navigation (VLN) to the agricultural domain, enabling a robot to navigate to a target position following a natural language instruction. Unlike human binocular vision, most agricultural robots are only given a single camera for monocular vision, which results in limited spatial perception. To bridge this gap, we present the method of Agricultural Vision-and-Language Navigation with Monocular Depth Estimation (MDE-AgriVLN), in which we propose the MDE module generating depth features from RGB images, to assist the decision-maker on multimodal reasoning. When evaluated on the A2A benchmark, our MDE-AgriVLN method successfully increases Success Rate from 0.23 to 0.32 and decreases Navigation Error from 4.43m to 4.08m, demonstrating the state-of-the-art performance in the agricultural VLN domain. Code: https://github.com/AlexTraveling/MDE-AgriVLN.


翻译:农业机器人正作为强大的助手服务于广泛的农业任务,然而其移动仍严重依赖人工操作或轨道系统。AgriVLN方法与A2A基准率先将视觉与语言导航(VLN)扩展至农业领域,使机器人能够依据自然语言指令导航至目标位置。与人类的双目视觉不同,大多数农业机器人仅配备单目视觉的单摄像头,导致空间感知能力受限。为弥补这一差距,我们提出了基于单目深度估计的农业视觉与语言导航方法(MDE-AgriVLN),其中我们设计了可从RGB图像生成深度特征的MDE模块,以辅助决策器进行多模态推理。在A2A基准上的评估结果表明,我们的MDE-AgriVLN方法将成功率从0.23提升至0.32,并将导航误差从4.43米降低至4.08米,展现了在农业VLN领域最先进的性能。代码:https://github.com/AlexTraveling/MDE-AgriVLN。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
22+阅读 · 2025年10月22日
【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 2025年8月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员