OpenFrontier: General Navigation with Visual-Language Grounded Frontiers - 专知论文

会员服务 ·

0

语言边界 · 设计 · 微调 · 机器人 · 重建 ·

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

翻译：OpenFrontier：基于视觉-语言边界锚定的通用导航

Esteban Padilla,Boyang Sun,Marc Pollefeys,Hermann Blum

Open-world navigation requires robots to make decisions in complex everyday environments while adapting to flexible task requirements. Conventional navigation approaches often rely on dense 3D reconstruction and hand-crafted goal metrics, which limits their generalization across tasks and environments. Recent advances in vision--language navigation (VLN) and vision--language--action (VLA) models enable end-to-end policies conditioned on natural language, but typically require interactive training, large-scale data collection, or task-specific fine-tuning with a mobile agent. We formulate navigation as a sparse subgoal identification and reaching problem and observe that providing visual anchoring targets for high-level semantic priors enables highly efficient goal-conditioned navigation. Based on this insight, we select navigation frontiers as semantic anchors and propose OpenFrontier, a training-free navigation framework that seamlessly integrates diverse vision--language prior models. OpenFrontier enables efficient navigation with a lightweight system design, without dense 3D mapping, policy training, or model fine-tuning. We evaluate OpenFrontier across multiple navigation benchmarks and demonstrate strong zero-shot performance, as well as effective real-world deployment on a mobile robot.

翻译：开放世界导航要求机器人在复杂的日常环境中做出决策，同时适应灵活的任务需求。传统的导航方法通常依赖于稠密的三维重建和人工设计的目标度量，这限制了其在任务和环境间的泛化能力。视觉-语言导航（VLN）和视觉-语言-动作（VLA）模型的最新进展实现了基于自然语言描述的端到端策略，但通常需要交互式训练、大规模数据收集或使用移动智能体进行任务特定的微调。我们将导航形式化为稀疏子目标识别与抵达问题，并观察到：为高层语义先验提供视觉锚定目标能够实现高效的目标条件导航。基于这一洞见，我们选择导航边界作为语义锚点，并提出OpenFrontier——一个无需训练即可无缝集成多种视觉-语言先验模型的导航框架。OpenFrontier通过轻量级系统设计实现高效导航，无需稠密三维建图、策略训练或模型微调。我们在多个导航基准上评估OpenFrontier，展示了其强大的零样本性能，以及在移动机器人上的有效实际部署。

0

相关内容

语言边界

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

13+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

15+阅读 · 4月11日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

视觉语言导航：大模型时代的综述

视觉语言导航：大模型时代的综述

专知会员服务

51+阅读 · 2024年7月10日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

9+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Arxiv

0+阅读 · 3月11日

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Arxiv

0+阅读 · 3月10日

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Arxiv

0+阅读 · 3月6日

CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

Arxiv

0+阅读 · 2月20日

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 2月20日

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

SignScene: Visual Sign Grounding for Mapless Navigation

Arxiv

0+阅读 · 2月13日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

16+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

9+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

10+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

相关VIP内容

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

13+阅读 · 4月16日

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

15+阅读 · 4月11日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

【ICLR2025】视觉与语言导航的通用场景适应

【ICLR2025】视觉与语言导航的通用场景适应

专知会员服务

9+阅读 · 2025年1月31日

视觉语言导航：大模型时代的综述

视觉语言导航：大模型时代的综述

专知会员服务

51+阅读 · 2024年7月10日

【CVPR2024】用于视觉-语言导航的体积环境表示

【CVPR2024】用于视觉-语言导航的体积环境表示

专知会员服务

19+阅读 · 2024年3月24日

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航

专知会员服务

10+阅读 · 2024年2月10日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

【泡泡一分钟】单目视觉惯性SLAM的重定位，全局优化和地图融合

泡泡机器人SLAM

59+阅读 · 2019年7月15日

OpenVSLAM：日本新开源”全能“视觉SLAM框架

OpenVSLAM：日本新开源”全能“视觉SLAM框架

计算机视觉life

13+阅读 · 2019年6月12日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

知识在检索式对话系统的应用

知识在检索式对话系统的应用

微信AI

32+阅读 · 2018年9月20日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Arxiv

0+阅读 · 3月11日

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Arxiv

0+阅读 · 3月10日

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Arxiv

0+阅读 · 3月6日

CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation

Arxiv

0+阅读 · 2月20日

View Invariant Learning for Vision-Language Navigation in Continuous Environments

Arxiv

0+阅读 · 2月20日

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Arxiv

0+阅读 · 2月17日

SignScene: Visual Sign Grounding for Mapless Navigation

Arxiv

0+阅读 · 2月13日

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

Arxiv

0+阅读 · 2月10日

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

相关基金

基于地形辅助的深海长航时ARV自主导航技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广域动态的野外环境中移动机器人六维全局定位方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂低空飞行中机会信号导航的信号优选及融合定位方法研究

国家自然科学基金

9+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员