Although learning-based vision-and-language navigation (VLN) agents can learn spatial knowledge implicitly from large-scale training data, zero-shot VLN agents lack this process, relying primarily on local observations for navigation, which leads to inefficient exploration and a significant performance gap. To deal with the problem, we consider a zero-shot VLN setting that agents are allowed to fully explore the environment before task execution. Then, we construct the Spatial Scene Graph (SSG) to explicitly capture global spatial structure and semantics in the explored environment. Based on the SSG, we introduce SpatialNav, a zero-shot VLN agent that integrates an agent-centric spatial map, a compass-aligned visual representation, and a remote object localization strategy for efficient navigation. Comprehensive experiments in both discrete and continuous environments demonstrate that SpatialNav significantly outperforms existing zero-shot agents and clearly narrows the gap with state-of-the-art learning-based methods. Such results highlight the importance of global spatial representations for generalizable navigation.


翻译:尽管基于学习的视觉语言导航(VLN)智能体能够从大规模训练数据中隐式学习空间知识,但零样本VLN智能体缺乏这一过程,主要依赖局部观测进行导航,导致探索效率低下并产生显著的性能差距。为解决该问题,我们考虑一种零样本VLN设定,允许智能体在执行任务前充分探索环境。随后,我们构建空间场景图(SSG)以显式捕捉已探索环境中的全局空间结构与语义信息。基于SSG,我们提出SpatialNav——一种集成智能体中心空间地图、罗盘对齐视觉表征及远程目标定位策略以实现高效导航的零样本VLN智能体。在离散与连续环境中的综合实验表明,SpatialNav显著优于现有零样本智能体,并明显缩小了与最先进基于学习方法的性能差距。该结果凸显了全局空间表征对泛化性导航的重要性。

0
下载
关闭预览

相关内容

【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
视觉语言导航:大模型时代的综述
专知会员服务
51+阅读 · 2024年7月10日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
专知会员服务
51+阅读 · 2020年12月26日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
0+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员