Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation - 专知论文

会员服务 ·

0

Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation

翻译：基于视觉的全向导航学习：采用单目深度估计的师生框架

Jan Finke,Wayne Paul Martis,Adrian Schmelter,Lars Erbach,Christian Jestel,Marvin Wiedemann

Reliable obstacle avoidance in industrial settings demands 3D scene understanding, but widely used 2D LiDAR sensors perceive only a single horizontal slice of the environment, missing critical obstacles above or below the scan plane. We present a teacher-student framework for vision-based mobile robot navigation that eliminates the need for LiDAR sensors. A teacher policy trained via Proximal Policy Optimization (PPO) in NVIDIA Isaac Lab leverages privileged 2D LiDAR observations that account for the full robot footprint to learn robust navigation. The learned behavior is distilled into a student policy that relies solely on monocular depth maps predicted by a fine-tuned Depth Anything V2 model from four RGB cameras. The complete inference pipeline, comprising monocular depth estimation (MDE), policy execution, and motor control, runs entirely onboard an NVIDIA Jetson Orin AGX mounted on a DJI RoboMaster platform, requiring no external computation for inference. In simulation, the student achieves success rates of 82-96.5%, consistently outperforming the standard 2D LiDAR teacher (50-89%). In real-world experiments, the MDE-based student outperforms the 2D LiDAR teacher when navigating around obstacles with complex 3D geometries, such as overhanging structures and low-profile objects, that fall outside the single scan plane of a 2D LiDAR.

翻译：工业环境中可靠的障碍物规避需要三维场景理解，但广泛使用的二维激光雷达传感器仅能感知环境的单一水平截面，从而遗漏扫描平面之上或之下的关键障碍物。我们提出了一种基于视觉的移动机器人导航师生框架，无需激光雷达传感器。教师策略通过NVIDIA Isaac Lab中的近端策略优化（PPO）训练，利用考虑完整机器人足迹的特权二维激光雷达观测学习鲁棒导航。学习到的行为被提炼为仅依赖来自四个RGB相机的微调Depth Anything V2模型预测的单目深度图的学生策略。完整的推理流水线（包括单目深度估计、策略执行和电机控制）完全在搭载于DJI RoboMaster平台上的NVIDIA Jetson Orin AGX上运行，无需外部计算进行推理。在仿真中，学生策略的成功率达到82-96.5%，始终优于标准二维激光雷达教师策略（50-89%）。在真实世界实验中，基于MDE的学生策略在绕过具有复杂三维几何结构（如悬空结构和低矮物体）且超出二维激光雷达单一扫描平面的障碍物时，性能优于二维激光雷达教师策略。

0

相关内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

45+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

35+阅读 · 2022年12月12日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

专知会员服务

13+阅读 · 2022年11月25日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知会员服务

27+阅读 · 2020年4月3日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

教程 | 如何使用深度学习为照片自动生成文本描述？

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

Sixth-Sense: Self-Supervised Learning of Spatial Awareness of Humans from a Planar Lidar

Arxiv

0+阅读 · 4月16日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Visual Contextual Adaptation

Arxiv

0+阅读 · 4月1日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

Arxiv

0+阅读 · 3月18日

ADAPT: Adaptive Dual-projection Architecture for Perceptive Traversal

Arxiv

0+阅读 · 3月17日

Navigation beyond Wayfinding: Robots Collaborating with Visually Impaired Users for Environmental Interactions

Arxiv

0+阅读 · 3月15日

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Arxiv

0+阅读 · 3月5日

Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation

Arxiv

0+阅读 · 3月2日

SaferPath: Hierarchical Visual Navigation with Learned Guidance and Safety-Constrained Control

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

【HKUST博士论文】可扩展的基于视觉的 3D 物体检测与单目深度估计用于自动驾驶

专知会员服务

18+阅读 · 2025年1月20日

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

【牛津大学博士论文】深度概率方法用于改进雷达传感器建模和姿态估计

专知会员服务

45+阅读 · 2023年8月2日

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

《探索基于深度学习的机器人感知技术，用于在户外地形中导航》美空军研究实验室2022最新20页报告

专知会员服务

35+阅读 · 2022年12月12日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

【CMU博士论文】基于可编程光幕的主动机器人感知，120页pdf

专知会员服务

13+阅读 · 2022年11月25日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

如何在交通领域构建基于图的深度学习体系结构:一个综述，How to Build a Graph-Based Deep Learning Architecture in Traffic Domain: A Survey

专知会员服务

51+阅读 · 2020年5月26日

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知会员服务

27+阅读 · 2020年4月3日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

【CVPR2020-台大】透视眼：学会透过障碍物看东西，Learning to See Through Obstructions

专知

26+阅读 · 2020年4月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉方向简介 | 基于单目视觉的三维重建算法

计算机视觉life

32+阅读 · 2019年4月9日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

商汤科技

14+阅读 · 2018年6月2日

Maplab：研究视觉惯性建图和定位的开源框架

Maplab：研究视觉惯性建图和定位的开源框架

泡泡机器人SLAM

16+阅读 · 2018年4月4日

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

【论文推荐】最新5篇视觉目标跟踪相关论文—递归神经网络、深度适应计算策略、视觉目标跟踪基准、深度核化相关滤波、检测并跟踪

专知

14+阅读 · 2018年1月22日

教程 | 如何使用深度学习为照片自动生成文本描述？

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation

Arxiv

0+阅读 · 4月19日

Sixth-Sense: Self-Supervised Learning of Spatial Awareness of Humans from a Planar Lidar

Arxiv

0+阅读 · 4月16日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Visual Contextual Adaptation

Arxiv

0+阅读 · 4月1日

P$^{3}$Nav: End-to-End Perception, Prediction and Planning for Vision-and-Language Navigation

Arxiv

0+阅读 · 3月18日

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

Arxiv

0+阅读 · 3月18日

ADAPT: Adaptive Dual-projection Architecture for Perceptive Traversal

Arxiv

0+阅读 · 3月17日

Navigation beyond Wayfinding: Robots Collaborating with Visually Impaired Users for Environmental Interactions

Arxiv

0+阅读 · 3月15日

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Arxiv

0+阅读 · 3月5日

Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation

Arxiv

0+阅读 · 3月2日

SaferPath: Hierarchical Visual Navigation with Learned Guidance and Safety-Constrained Control

Arxiv

0+阅读 · 3月2日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

基于特征学习的空间非合作目标单目视觉位姿测量研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂环境下面向激光扫描点云的三维目标定位方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员