Visual Language Navigation is a task that challenges robots to navigate in realistic environments based on natural language instructions. While previous research has largely focused on static settings, real-world navigation must often contend with dynamic human obstacles. Hence, we propose an extension to the task, termed Adaptive Visual Language Navigation (AdaVLN), which seeks to narrow this gap. AdaVLN requires robots to navigate complex 3D indoor environments populated with dynamically moving human obstacles, adding a layer of complexity to navigation tasks that mimic the real-world. To support exploration of this task, we also present AdaVLN simulator and AdaR2R datasets. The AdaVLN simulator enables easy inclusion of fully animated human models directly into common datasets like Matterport3D. We also introduce a "freeze-time" mechanism for both the navigation task and simulator, which pauses world state updates during agent inference, enabling fair comparisons and experimental reproducibility across different hardware. We evaluate several baseline models on this task, analyze the unique challenges introduced by AdaVLN, and demonstrate its potential to bridge the sim-to-real gap in VLN research.


翻译:视觉语言导航是一项基于自然语言指令引导机器人在真实环境中导航的任务。尽管先前研究主要聚焦于静态场景,但现实世界的导航往往需要应对动态行人障碍。为此,我们提出了一项扩展任务——自适应视觉语言导航,旨在弥合这一差距。该任务要求机器人在充满动态移动行人障碍的复杂三维室内环境中进行导航,为模拟现实世界的导航任务增加了复杂度。为支持该任务的探索,我们同步推出了AdaVLN仿真器与AdaR2R数据集。该仿真器能够将全动态人体模型直接集成至Matterport3D等通用数据集中。我们还为导航任务及仿真器引入了“冻结时间”机制,该机制可在智能体推理期间暂停世界状态更新,从而确保跨硬件平台的公平比较与实验可复现性。我们通过多个基线模型对该任务进行评估,分析了AdaVLN带来的独特挑战,并论证了其在缩小视觉语言导航研究领域仿真与现实差距方面的潜力。

0
下载
关闭预览

相关内容

Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员