While large vision-language models (VLMs) show promise for object goal navigation, current methods still struggle with low success rates and inefficient localization of unseen objects--failures primarily attributed to weak temporal-spatial reasoning. Meanwhile, recent attempts to inject reasoning into VLM-based agents improve success rates but incur substantial computational overhead. To address both the ineffectiveness and inefficiency of existing approaches, we introduce Hydra-Nav, a unified VLM architecture that adaptively switches between a deliberative slow system for analyzing exploration history and formulating high-level plans, and a reactive fast system for efficient execution. We train Hydra-Nav through a three-stage curriculum: (i) spatial-action alignment to strengthen trajectory planning, (ii) memory-reasoning integration to enhance temporal-spatial reasoning over long-horizon exploration, and (iii) iterative rejection fine-tuning to enable selective reasoning at critical decision points. Extensive experiments demonstrate that Hydra-Nav achieves state-of-the-art performance on the HM3D, MP3D, and OVON benchmarks, outperforming the second-best methods by 11.1%, 17.4%, and 21.2%, respectively. Furthermore, we introduce SOT (Success weighted by Operation Time), a new metric to measure search efficiency across VLMs with varying reasoning intensity. Results show that adaptive reasoning significantly enhances search efficiency over fixed-frequency baselines.


翻译:尽管大型视觉语言模型在目标导航任务中展现出潜力,但现有方法仍受限于较低的成功率及对未见目标物体的低效定位——这些失败主要归因于薄弱的时空推理能力。同时,近期为基于VLM的智能体注入推理能力的尝试虽提升了成功率,却带来了显著的计算开销。为同时解决现有方法的低效性与高耗能问题,我们提出了Hydra-Nav:一种统一的可自适应切换推理模式的VLM架构。该架构包含一个用于分析探索历史并制定高层规划的审慎慢速系统,以及一个用于高效执行的反应式快速系统。我们通过三阶段课程训练Hydra-Nav:(1)空间-动作对齐以强化轨迹规划能力;(2)记忆-推理融合以增强长时程探索中的时空推理能力;(3)迭代拒绝微调以实现关键决策点的选择性推理。大量实验表明,Hydra-Nav在HM3D、MP3D和OVON基准测试中均达到了最先进的性能,分别优于次优方法11.1%、17.4%和21.2%。此外,我们提出了SOT(操作时间加权成功率)这一新指标,用以衡量不同推理强度VLM的搜索效率。实验结果表明,自适应推理相比固定频率的基线方法能显著提升搜索效率。

0
下载
关闭预览

相关内容

自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
《战场GPS拒止环境下基于地标定位的安全路径导航》
专知会员服务
18+阅读 · 2025年5月22日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员