Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.


翻译:为何视觉语言导航必须受限于详尽冗长的语言指令?虽然此类细节便于决策制定,但它们从根本上违背了现实世界导航的目标。理想情况下,智能体应具备在未知环境中仅凭简单高层意图引导的自主导航能力。实现这一愿景带来了严峻挑战:超视距导航,即智能体必须在缺乏密集逐步指引的情况下定位远处不可见的目标。现有基于大语言模型的方法虽擅长遵循密集指令,但由于依赖短视距监督,常表现出短视行为。然而,单纯扩展监督视距会破坏大语言模型训练的稳定性。本研究发现,视频生成模型先天受益于长视距监督以实现与语言指令的对齐,这使其特别适用于超视距导航任务。基于此洞见,我们首次提出将视频生成模型引入该领域。然而,生成持续数十秒视频的过高延迟使其难以实际部署。为弥合此差距,我们提出SparseVideoNav,通过生成跨越20秒视距的稀疏未来场景引导,实现亚秒级轨迹推断。相比未优化版本,这带来了27倍的显著加速。大量现实世界零样本实验表明,SparseVideoNav在超视距导航任务中达到最先进大语言模型基线2.5倍的成功率,并首次在具有挑战性的夜间场景中实现了此类能力。

0
下载
关闭预览

相关内容

【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
63+阅读 · 2021年8月27日
专知会员服务
11+阅读 · 2021年8月8日
【自然语言处理】清华刘知远55页自然语言处理PPT
产业智能官
19+阅读 · 2019年8月23日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
ECCV发布:228页教程全面理解视觉定位技术
专知
17+阅读 · 2018年9月12日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员