Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned - 专知论文

会员服务 ·

0

样本 · 碰撞 · 鲁棒 · 零样本 · 机器人 ·

Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned

翻译：视觉基础模型能导航吗？零样本现实世界评估与经验教训

Maeva Guerrier,Karthik Soma,Jana Pavlasek,Giovanni Beltrame

Visual Navigation Models (VNMs) promise generalizable, robot navigation by learning from large-scale visual demonstrations. Despite growing real-world deployment, existing evaluations rely almost exclusively on success rate, whether the robot reaches its goal, which conceals trajectory quality, collision behavior, and robustness to environmental change. We present a real-world evaluation of five state-of-the-art VNMs (GNM, ViNT, NoMaD, NaviBridger, and CrossFormer) across two robot platforms and five environments spanning indoor and outdoor settings. Beyond success rate, we combine path-based metrics with vision-based goal-recognition scores and assess robustness through controlled image perturbations (motion blur, sunflare). Our analysis uncovers three systematic limitations: (a) even architecturally sophisticated diffusion and transformer-based models exhibit frequent collisions, indicating limited geometric understanding; (b) models fail to discriminate between different locations that are perceptually similar, however some semantics differences are present, causing goal prediction errors in repetitive environments; and (c) performance degrades under distribution shift. We will publicly release our evaluation codebase and dataset to facilitate reproducible benchmarking of VNMs.

翻译：视觉导航模型（VNMs）有望通过从大规模视觉演示中学习，实现可泛化的机器人导航。尽管现实世界部署日益增多，但现有评估几乎完全依赖成功率（即机器人是否到达目标），这掩盖了轨迹质量、碰撞行为以及对环境变化的鲁棒性。我们针对五种最先进的VNMs（GNM、ViNT、NoMaD、NaviBridger和CrossFormer），在两个机器人平台和五个涵盖室内与室外的环境中进行了现实世界评估。除成功率外，我们结合了基于路径的指标与基于视觉的目标识别分数，并通过受控图像扰动（运动模糊、眩光）评估鲁棒性。我们的分析揭示了三个系统性局限：(a) 即使架构先进的扩散模型和Transformer模型也频繁发生碰撞，表明其几何理解能力有限；(b) 模型无法区分感知相似但存在语义差异的不同位置，导致在重复性环境中出现目标预测错误；(c) 在分布偏移下性能下降。我们将公开发布评估代码库与数据集，以促进VNMs的可复现基准测试。

0

相关内容

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

视觉语言建模导论

视觉语言建模导论

专知会员服务

38+阅读 · 2024年5月30日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

《基础模型在现实世界机器人应用》综述

《基础模型在现实世界机器人应用》综述

专知会员服务

56+阅读 · 2024年2月11日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

专知会员服务

51+阅读 · 2023年7月19日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

VISTA: Scale-Aware Visual Navigation via Action History Conditioning

Arxiv

0+阅读 · 6月15日

Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Arxiv

0+阅读 · 6月12日

Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

Arxiv

0+阅读 · 6月11日

Act on What You See: Unlocking Safe Social Navigation in Vision-Language-Action Models

Arxiv

0+阅读 · 6月9日

ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning

Arxiv

0+阅读 · 6月8日

IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations

Arxiv

0+阅读 · 6月6日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

Generalization of World Models under Environmental Variability for Vision-based Quadrotor Navigation

Arxiv

0+阅读 · 6月3日

Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

Arxiv

0+阅读 · 5月15日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

从看见到认知世界：视觉世界模型综述

从看见到认知世界：视觉世界模型综述

专知会员服务

17+阅读 · 5月17日

大规模视觉-语言模型的基准、评估、应用与挑战

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

视觉语言建模导论

视觉语言建模导论

专知会员服务

38+阅读 · 2024年5月30日

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

【CVPR2024】"ViTamin：在视觉-语言时代设计可扩展的视觉模型"

专知会员服务

28+阅读 · 2024年4月4日

《基础模型在现实世界机器人应用》综述

《基础模型在现实世界机器人应用》综述

专知会员服务

56+阅读 · 2024年2月11日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

如何可视化机器学习模型？最新《机器学习的可视化分析: 数据视角综述》全面概述VIS4ML方法体系

专知会员服务

51+阅读 · 2023年7月19日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

VISTA: Scale-Aware Visual Navigation via Action History Conditioning

Arxiv

0+阅读 · 6月15日

Schrödinger's Navigator: Imagining an Ensemble of Futures for Zero-Shot Object Navigation

Arxiv

0+阅读 · 6月12日

Benchmarking Vision-Language-Action Models on SO-101: Failure and Recovery Analysis

Arxiv

0+阅读 · 6月11日

Act on What You See: Unlocking Safe Social Navigation in Vision-Language-Action Models

Arxiv

0+阅读 · 6月9日

ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning

Arxiv

0+阅读 · 6月8日

IntentNav: Learning Spatial-Visual Object Navigation from Human Demonstrations

Arxiv

0+阅读 · 6月6日

SEDualVLN: A Spatially-Enhanced Dual-System for Vision-Language Navigation

Arxiv

0+阅读 · 6月4日

Generalization of World Models under Environmental Variability for Vision-based Quadrotor Navigation

Arxiv

0+阅读 · 6月3日

Learning Structured Robot Policies from Vision-Language Models via Synthetic Neuro-Symbolic Supervision

Arxiv

0+阅读 · 5月15日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

空间非合作目标基于点云模型的视觉与惯性融合相对导航方法与实验研究

国家自然科学基金

17+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

未知环境中移动机器人探索式路径规划方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员