图像目标导航中真正关键的因素是什么？ (What does really matter in image goal navigation?) - 专知论文

会员服务 ·

0

相对位姿估计 · 位姿估计 · 自由空间 · CVPR 2022 · 端到端 ·

What does really matter in image goal navigation?

翻译：图像目标导航中真正关键的因素是什么？

Gianluca Monaci,Philippe Weinzaepfel,Christian Wolf

Image goal navigation requires two different skills: firstly, core navigation skills, including the detection of free space and obstacles, and taking decisions based on an internal representation; and secondly, computing directional information by comparing visual observations to the goal image. Current state-of-the-art methods either rely on dedicated image-matching, or pre-training of computer vision modules on relative pose estimation. In this paper, we study whether this task can be efficiently solved with end-to-end training of full agents with RL, as has been claimed by recent work. A positive answer would have impact beyond Embodied AI and allow training of relative pose estimation from reward for navigation alone. In this large experimental study we investigate the effect of architectural choices like late fusion, channel stacking, space-to-depth projections and cross-attention, and their role in the emergence of relative pose estimators from navigation training. We show that the success of recent methods is influenced up to a certain extent by simulator settings, leading to shortcuts in simulation. However, we also show that these capabilities can be transferred to more realistic setting, up to some extent. We also find evidence for correlations between navigation performance and probed (emerging) relative pose estimation performance, an important sub skill.

翻译：图像目标导航需要两种不同的技能：首先是核心导航技能，包括自由空间与障碍物的检测，以及基于内部表征进行决策；其次是通过将视觉观测与目标图像进行比较来计算方向信息。当前最先进的方法要么依赖于专用的图像匹配技术，要么依赖于在相对位姿估计任务上预训练的计算机视觉模块。本文研究了该任务是否能够像近期工作所声称的那样，通过强化学习对完整智能体进行端到端训练来高效解决。若能得到肯定答案，其影响将超越具身人工智能领域，并使得仅从导航奖励中训练相对位姿估计成为可能。在这项大规模实验研究中，我们探讨了延迟融合、通道堆叠、空间到深度投影和交叉注意力等架构选择的影响，以及它们在导航训练中促使相对位姿估计器涌现的作用。研究表明，近期方法的成功在一定程度上受到仿真器设置的影响，导致在仿真中出现捷径效应。然而，我们也证明这些能力可以在一定程度上迁移到更现实的场景中。此外，我们发现导航性能与被探测（涌现的）相对位姿估计性能之间存在相关性，后者是该任务的一项重要子技能。

0

相关内容

相对位姿估计

相对位姿估计

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

18+阅读 · 2025年5月22日

基于深度学习的图像匹配:方法、应用与挑战

基于深度学习的图像匹配:方法、应用与挑战

专知会员服务

24+阅读 · 2024年7月19日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的图像目标检测算法综述

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

光学遥感图像目标检测算法综述

专知会员服务

75+阅读 · 2021年3月23日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最全综述 | 图像目标检测

最全综述 | 图像目标检测

计算机视觉life

31+阅读 · 2019年6月24日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

博客 | 基于深度学习的目标检测算法综述（二）

博客 | 基于深度学习的目标检测算法综述（二）

AI研习社

11+阅读 · 2018年8月22日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

深度学习目标检测从入门到精通：第一篇

深度学习目标检测从入门到精通：第一篇

专知

43+阅读 · 2018年1月24日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

AI科技评论

12+阅读 · 2017年9月17日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

空间目标观测自动化的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于CBCT的三维/四维可视化介入影像导航关键问题的研究

国家自然科学基金

2+阅读 · 2014年12月31日

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

0+阅读 · 2月6日

User-Centric Object Navigation: A Benchmark with Integrated User Habits for Personalized Embodied Object Search

Arxiv

0+阅读 · 2月6日

From Vision to Decision: Neuromorphic Control for Autonomous Navigation and Tracking

Arxiv

0+阅读 · 2月5日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 2月3日

What does really matter in image goal navigation?

Arxiv

0+阅读 · 2月3日

Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps

Arxiv

0+阅读 · 1月30日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Robust Subpixel Localization of Diagonal Markers in Large-Scale Navigation via Multi-Layer Screening and Adaptive Matching

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相对位姿估计

相关VIP内容

《战场GPS拒止环境下基于地标定位的安全路径导航》

《战场GPS拒止环境下基于地标定位的安全路径导航》

专知会员服务

18+阅读 · 2025年5月22日

基于深度学习的图像匹配:方法、应用与挑战

基于深度学习的图像匹配:方法、应用与挑战

专知会员服务

24+阅读 · 2024年7月19日

基于深度学习的视觉目标检测技术综述

基于深度学习的视觉目标检测技术综述

专知会员服务

61+阅读 · 2022年6月22日

基于深度学习的图像目标检测算法综述

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

悉尼大学发布首篇《基于图像的自动驾驶三维目标检测》研究进展，阐述3D检测数据、方法与挑战

专知会员服务

27+阅读 · 2022年2月8日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

光学遥感图像目标检测算法综述

专知会员服务

75+阅读 · 2021年3月23日

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

【目标检测 | 2019最新综述】目标检测的最新进展，附40页PDF，Recent Advances in Deep Learning for Object Detection

专知会员服务

86+阅读 · 2019年11月15日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

最全综述 | 图像目标检测

最全综述 | 图像目标检测

计算机视觉life

31+阅读 · 2019年6月24日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

博客 | 基于深度学习的目标检测算法综述（二）

博客 | 基于深度学习的目标检测算法综述（二）

AI研习社

11+阅读 · 2018年8月22日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

深度学习目标检测从入门到精通：第一篇

深度学习目标检测从入门到精通：第一篇

专知

43+阅读 · 2018年1月24日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

开发 | 计算机视觉中，究竟有哪些好用的目标跟踪算法（上）

AI科技评论

12+阅读 · 2017年9月17日

相关论文

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

3D Object Detection for Autonomous Driving: A Survey

Arxiv

0+阅读 · 2月6日

User-Centric Object Navigation: A Benchmark with Integrated User Habits for Personalized Embodied Object Search

Arxiv

0+阅读 · 2月6日

From Vision to Decision: Neuromorphic Control for Autonomous Navigation and Tracking

Arxiv

0+阅读 · 2月5日

MapDream: Task-Driven Map Learning for Vision-Language Navigation

Arxiv

0+阅读 · 2月3日

What does really matter in image goal navigation?

Arxiv

0+阅读 · 2月3日

Online Navigation Refinement: Achieving Lane-Level Guidance by Associating Standard-Definition and Online Perception Maps

Arxiv

0+阅读 · 1月30日

Floor Plan-Guided Visual Navigation Incorporating Depth and Directional Cues

Arxiv

0+阅读 · 1月18日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

Robust Subpixel Localization of Diagonal Markers in Large-Scale Navigation via Multi-Layer Screening and Adaptive Matching

Arxiv

0+阅读 · 1月13日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

空间目标观测自动化的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于语义模型的高分辨率卫星遥感图像人造目标检测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

解决地图要素空间冲突的智能化协同模型和算法

国家自然科学基金

6+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于CBCT的三维/四维可视化介入影像导航关键问题的研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员