VGP-Nav: Metric-Aware Visual Geometric Perception for Robot Navigation - 专知论文

会员服务 ·

0

度量 · 几何感知 · 机器人导航 · 一致 · 传感 ·

VGP-Nav: Metric-Aware Visual Geometric Perception for Robot Navigation

翻译：VGP-Nav：度量感知的视觉几何感知用于机器人导航

Hewei Pan,Weiye Zhu,Zekai Zhang,Zitong Huang,Rongtao Xu,Jinbao Wang,Feng Zheng

Reliable robotic navigation necessitates the seamless integration of accurate global localization and dense, metric-consistent obstacle perception. A common strategy to achieve these capabilities involves integrating diverse sensing modalities: cameras offer rich visual features for localization, while active sensors like LiDAR provide direct metric measurements. However, such multi-sensor configurations necessitate complex spatial-temporal calibration and increase deployment overhead. Although vision-only approaches offer a low-cost and scalable alternative, existing monocular visual systems typically struggle to simultaneously achieve efficient, globally consistent localization and dense, metric-consistent geometric perception. To bridge this gap, we propose \textbf{VGP-Nav}, a unified framework for \textit{Metric-Aware Visual Geometric Perception} that relies solely on monocular RGB input to jointly support metric localization and obstacle perception. Our key insight is to anchor localization-grounded visual geometry to physically meaningful scale constraints derived from ground-plane geometry, thereby providing a reliable metric reference for monocular perception. VGP-Nav resolves monocular scale ambiguity online and produces localization-grounded, metric obstacle representations that are directly applicable to downstream planning. Extensive experiments demonstrate strong generalization across diverse environments and successful deployment on real mobile robots, highlighting the practicality of our approach for scalable, low-cost, and safe autonomous navigation.

翻译：可靠的机器人导航需要精确的全局定位与稠密、度量一致的障碍物感知的无缝集成。实现这些能力的常见策略涉及整合多种传感模态：相机提供丰富的视觉特征用于定位，而激光雷达等主动传感器则提供直接的度量测量。然而，此类多传感器配置需要复杂的时空标定并增加部署开销。尽管纯视觉方法提供了一种低成本且可扩展的替代方案，但现有的单目视觉系统通常难以同时实现高效、全局一致的定位和稠密、度量一致的几何感知。为弥合这一差距，我们提出\textbf{VGP-Nav}，一个统一的度量感知视觉几何感知框架，仅依赖单目RGB输入联合支持度量定位与障碍物感知。我们的关键洞察在于将基于定位的视觉几何锚定到由地平面几何导出的物理意义尺度约束，从而为单目感知提供可靠的度量参考。VGP-Nav在线解决单目尺度模糊问题，并生成可直接应用于下游规划的、基于定位的度量障碍物表示。大量实验证明了在多样环境中的强泛化能力以及在实际移动机器人上的成功部署，突显了该方法对于可扩展、低成本且安全自主导航的实用性。

0

相关内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

45+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

35+阅读 · 2022年12月12日

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

专知会员服务

13+阅读 · 2022年11月25日

用于自主船舶态势感知的传感器和人工智能技术综述

用于自主船舶态势感知的传感器和人工智能技术综述

专知会员服务

68+阅读 · 2022年10月22日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

厚势

14+阅读 · 2018年1月19日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

29+阅读 · 2011年12月31日

GuideWalk: Learning Unified Autonomous Navigation and Locomotion for Humanoid Robots across Versatile Terrains

Arxiv

0+阅读 · 6月13日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月13日

SAFER-Nav: Enhancing Safety for Visual Robot Navigation via Segmentation-Aware Fine-Tuning

Arxiv

0+阅读 · 6月10日

AgniNav: Configuration-Driven Cross-Embodiment Local Planning for Robot Navigation

Arxiv

0+阅读 · 6月9日

VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands

Arxiv

0+阅读 · 6月8日

IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations

Arxiv

0+阅读 · 6月6日

MinNav: Minimalist Navigation Using Optical Flow For Active Tiny Aerial Robots

Arxiv

0+阅读 · 6月5日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月3日

HumanFlow -- Diffusion-Driven MAV Navigation Among Humans via Tightly-Coupled Motion Tracking, Forecasting, and Control

Arxiv

0+阅读 · 5月25日

VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

机器人导航

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

45+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

35+阅读 · 2022年12月12日

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

专知会员服务

13+阅读 · 2022年11月25日

用于自主船舶态势感知的传感器和人工智能技术综述

用于自主船舶态势感知的传感器和人工智能技术综述

专知会员服务

68+阅读 · 2022年10月22日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【紫冬分享】移动机器人视觉里程计综述

【紫冬分享】移动机器人视觉里程计综述

中国科学院自动化研究所

12+阅读 · 2018年10月31日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

厚势

14+阅读 · 2018年1月19日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

GuideWalk: Learning Unified Autonomous Navigation and Locomotion for Humanoid Robots across Versatile Terrains

Arxiv

0+阅读 · 6月13日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月13日

SAFER-Nav: Enhancing Safety for Visual Robot Navigation via Segmentation-Aware Fine-Tuning

Arxiv

0+阅读 · 6月10日

AgniNav: Configuration-Driven Cross-Embodiment Local Planning for Robot Navigation

Arxiv

0+阅读 · 6月9日

VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands

Arxiv

0+阅读 · 6月8日

IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations

Arxiv

0+阅读 · 6月6日

MinNav: Minimalist Navigation Using Optical Flow For Active Tiny Aerial Robots

Arxiv

0+阅读 · 6月5日

WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

Arxiv

0+阅读 · 6月3日

HumanFlow -- Diffusion-Driven MAV Navigation Among Humans via Tightly-Coupled Motion Tracking, Forecasting, and Control

Arxiv

0+阅读 · 5月25日

VOFA: Visual Object Goal Pushing with Force-Adaptive Control for Humanoids

Arxiv

0+阅读 · 5月5日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

29+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员