Visual Language Navigation (VLN) is one of the fundamental capabilities for embodied intelligence and a critical challenge that urgently needs to be addressed. However, existing methods are still unsatisfactory in terms of both success rate (SR) and generalization: Supervised Fine-Tuning (SFT) approaches typically achieve higher SR, while Training-Free (TF) approaches often generalize better, but it is difficult to obtain both simultaneously. To this end, we propose a Memory-Execute-Review framework. It consists of three parts: a hierarchical memory module for providing information support, an execute module for routine decision-making and actions, and a review module for handling abnormal situations and correcting behavior. We validated the effectiveness of this framework on the Object Goal Navigation task. Across 4 datasets, our average SR achieved absolute improvements of 7% and 5% compared to all baseline methods under TF and Zero-Shot (ZS) settings, respectively. On the most commonly used HM3D_v0.1 and the more challenging open vocabulary dataset HM3D_OVON, the SR improved by 8% and 6%, under ZS settings. Furthermore, on the MP3D and HM3D_OVON datasets, our method not only outperformed all TF methods but also surpassed all SFT methods, achieving comprehensive leadership in both SR (5% and 2%) and generalization.


翻译:视觉语言导航是具身智能的基本能力之一,也是亟待解决的关键挑战。然而,现有方法在成功率与泛化性方面均不尽如人意:监督微调方法通常能获得更高的成功率,而免训练方法往往泛化性更好,但难以同时兼顾两者。为此,我们提出了一种记忆-执行-回顾框架。该框架包含三个部分:用于提供信息支持的分层记忆模块、用于常规决策与行动的执行模块,以及用于处理异常情况和修正行为的回顾模块。我们在目标导航任务上验证了该框架的有效性。在4个数据集上,与所有基线方法相比,我们的平均成功率在免训练和零样本设置下分别实现了7%和5%的绝对提升。在最常用的HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上,零样本设置下的成功率分别提升了8%和6%。此外,在MP3D和HM3D_OVON数据集上,我们的方法不仅超越了所有免训练方法,也超越了所有监督微调方法,在成功率(5%和2%)和泛化性方面均实现了全面领先。

0
下载
关闭预览

相关内容

【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
专知会员服务
11+阅读 · 2021年8月8日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
专知会员服务
11+阅读 · 2021年8月8日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员