This paper develops LongNav-R1, an end-to-end multi-turn reinforcement learning (RL) framework designed to optimize Visual-Language-Action (VLA) models for long-horizon navigation. Unlike existing single-turn paradigm, LongNav-R1 reformulates the navigation decision process as a continuous multi-turn conversation between the VLA policy and the embodied environment. This multi-turn RL framework offers two distinct advantages: i) it enables the agent to reason about the causal effects of historical interactions and sequential future outcomes; and ii) it allows the model to learn directly from online interactions, fostering diverse trajectory generation and avoiding the behavioral rigidity often imposed by human demonstrations. Furthermore, we introduce Horizon-Adaptive Policy Optimization. This mechanism explicitly accounts for varying horizon lengths during advantage estimation, facilitating accurate temporal credit assignment over extended sequences. Consequently, the agent develops diverse navigation behaviors and resists collapse during long-horizon tasks. Experiments on object navigation benchmarks validate the framework's efficacy: With 4,000 rollout trajectories, LongNav-R1 boosts the Qwen3-VL-2B success rate from 64.3% to 73.0%. These results demonstrate superior sample efficiency and significantly outperform state-of-the-art methods. The model's generalizability and robustness are further validated by its zero-shot performance in long-horizon real-world navigation settings. All source code will be open-sourced upon publication.


翻译:本文提出了LongNav-R1,一种端到端多轮次强化学习框架,旨在优化视觉-语言-行动模型在长视距导航任务中的性能。与现有的单轮次范式不同,LongNav-R1将导航决策过程重新定义为VLA策略与具身环境之间的连续多轮次对话。该多轮次强化学习框架具有两个显著优势:i) 使智能体能够推理历史交互的因果效应与序列化的未来结果;ii) 允许模型直接从在线交互中学习,促进多样化的轨迹生成,并避免人类示范数据常带来的行为僵化。此外,我们引入了视距自适应策略优化机制。该机制在优势估计中显式地考虑了变化的视距长度,从而促进了在长序列上实现精确的时间信用分配。因此,智能体能够发展出多样化的导航行为,并在长视距任务中抵抗策略崩溃。在物体导航基准上的实验验证了该框架的有效性:仅使用4,000条轨迹数据,LongNav-R1将Qwen3-VL-2B的成功率从64.3%提升至73.0%。这些结果证明了其卓越的样本效率,并显著优于现有最先进方法。该模型在长视距真实世界导航场景中的零样本性能进一步验证了其泛化能力与鲁棒性。所有源代码将在论文发表后开源。

0
下载
关闭预览

相关内容

【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
计算机视觉方向简介 | 视觉惯性里程计(VIO)
计算机视觉life
64+阅读 · 2019年6月16日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关VIP内容
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
相关基金
国家自然科学基金
14+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员