Visual Navigation Models (VNMs) promise generalizable, robot navigation by learning from large-scale visual demonstrations. Despite growing real-world deployment, existing evaluations rely almost exclusively on success rate, whether the robot reaches its goal, which conceals trajectory quality, collision behavior, and robustness to environmental change. We present a real-world evaluation of five state-of-the-art VNMs (GNM, ViNT, NoMaD, NaviBridger, and CrossFormer) across two robot platforms and five environments spanning indoor and outdoor settings. Beyond success rate, we combine path-based metrics with vision-based goal-recognition scores and assess robustness through controlled image perturbations (motion blur, sunflare). Our analysis uncovers three systematic limitations: (a) even architecturally sophisticated diffusion and transformer-based models exhibit frequent collisions, indicating limited geometric understanding; (b) models fail to discriminate between different locations that are perceptually similar, however some semantics differences are present, causing goal prediction errors in repetitive environments; and (c) performance degrades under distribution shift. We will publicly release our evaluation codebase and dataset to facilitate reproducible benchmarking of VNMs.


翻译:视觉导航模型(VNMs)有望通过从大规模视觉演示中学习,实现可泛化的机器人导航。尽管现实世界部署日益增多,但现有评估几乎完全依赖成功率(即机器人是否到达目标),这掩盖了轨迹质量、碰撞行为以及对环境变化的鲁棒性。我们针对五种最先进的VNMs(GNM、ViNT、NoMaD、NaviBridger和CrossFormer),在两个机器人平台和五个涵盖室内与室外的环境中进行了现实世界评估。除成功率外,我们结合了基于路径的指标与基于视觉的目标识别分数,并通过受控图像扰动(运动模糊、眩光)评估鲁棒性。我们的分析揭示了三个系统性局限:(a) 即使架构先进的扩散模型和Transformer模型也频繁发生碰撞,表明其几何理解能力有限;(b) 模型无法区分感知相似但存在语义差异的不同位置,导致在重复性环境中出现目标预测错误;(c) 在分布偏移下性能下降。我们将公开发布评估代码库与数据集,以促进VNMs的可复现基准测试。

0
下载
关闭预览

相关内容

从看见到认知世界:视觉世界模型综述
专知会员服务
15+阅读 · 5月17日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员