Open-world navigation requires robots to make decisions in complex everyday environments while adapting to flexible task requirements. Conventional navigation approaches often rely on dense 3D reconstruction and hand-crafted goal metrics, which limits their generalization across tasks and environments. Recent advances in vision--language navigation (VLN) and vision--language--action (VLA) models enable end-to-end policies conditioned on natural language, but typically require interactive training, large-scale data collection, or task-specific fine-tuning with a mobile agent. We formulate navigation as a sparse subgoal identification and reaching problem and observe that providing visual anchoring targets for high-level semantic priors enables highly efficient goal-conditioned navigation. Based on this insight, we select navigation frontiers as semantic anchors and propose OpenFrontier, a training-free navigation framework that seamlessly integrates diverse vision--language prior models. OpenFrontier enables efficient navigation with a lightweight system design, without dense 3D mapping, policy training, or model fine-tuning. We evaluate OpenFrontier across multiple navigation benchmarks and demonstrate strong zero-shot performance, as well as effective real-world deployment on a mobile robot.


翻译:开放世界导航要求机器人在复杂的日常环境中做出决策,同时适应灵活的任务需求。传统的导航方法通常依赖于稠密的三维重建和人工设计的目标度量,这限制了其在任务和环境间的泛化能力。视觉-语言导航(VLN)和视觉-语言-动作(VLA)模型的最新进展实现了基于自然语言描述的端到端策略,但通常需要交互式训练、大规模数据收集或使用移动智能体进行任务特定的微调。我们将导航形式化为稀疏子目标识别与抵达问题,并观察到:为高层语义先验提供视觉锚定目标能够实现高效的目标条件导航。基于这一洞见,我们选择导航边界作为语义锚点,并提出OpenFrontier——一个无需训练即可无缝集成多种视觉-语言先验模型的导航框架。OpenFrontier通过轻量级系统设计实现高效导航,无需稠密三维建图、策略训练或模型微调。我们在多个导航基准上评估OpenFrontier,展示了其强大的零样本性能,以及在移动机器人上的有效实际部署。

0
下载
关闭预览

相关内容

视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
视觉语言导航:大模型时代的综述
专知会员服务
51+阅读 · 2024年7月10日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关资讯
自动驾驶高精度定位如何在复杂环境进行
智能交通技术
18+阅读 · 2019年9月27日
OpenVSLAM:日本新开源”全能“视觉SLAM框架
计算机视觉life
13+阅读 · 2019年6月12日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
Maplab:研究视觉惯性建图和定位的开源框架
泡泡机器人SLAM
16+阅读 · 2018年4月4日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员