Vision-language navigation (VLN) requires intelligent agents to navigate environments by interpreting linguistic instructions alongside visual observations, serving as a cornerstone task in Embodied AI. Current VLN research for unmanned aerial vehicles (UAVs) relies on detailed, pre-specified instructions to guide the UAV along predetermined routes. However, real-world outdoor exploration typically occurs in unknown environments where detailed navigation instructions are unavailable. Instead, only coarse-grained positional or directional guidance can be provided, requiring UAVs to autonomously navigate through continuous planning and obstacle avoidance. To bridge this gap, we propose AutoFly, an end-to-end Vision-Language-Action (VLA) model for autonomous UAV navigation. AutoFly incorporates a pseudo-depth encoder that derives depth-aware features from RGB inputs to enhance spatial reasoning, coupled with a progressive two-stage training strategy that effectively aligns visual, depth, and linguistic representations with action policies. Moreover, existing VLN datasets have fundamental limitations for real-world autonomous navigation, stemming from their heavy reliance on explicit instruction-following over autonomous decision-making and insufficient real-world data. To address these issues, we construct a novel autonomous navigation dataset that shifts the paradigm from instruction-following to autonomous behavior modeling through: (1) trajectory collection emphasizing continuous obstacle avoidance, autonomous planning, and recognition workflows; (2) comprehensive real-world data integration. Experimental results demonstrate that AutoFly achieves a 3.9% higher success rate compared to state-of-the-art VLA baselines, with consistent performance across simulated and real environments.


翻译:视觉语言导航(VLN)要求智能体通过结合语言指令与视觉观察来导航环境,是具身人工智能的基础任务之一。当前面向无人机(UAV)的VLN研究依赖于详细、预先指定的指令来引导无人机沿预定路径飞行。然而,现实世界的户外探索通常发生在未知环境中,无法获得详细的导航指令,只能提供粗粒度的位置或方向引导,这要求无人机通过持续规划与避障实现自主导航。为弥补这一差距,我们提出了AutoFly——一种面向无人机自主导航的端到端视觉-语言-动作(VLA)模型。AutoFly引入了一种伪深度编码器,可从RGB输入中提取深度感知特征以增强空间推理能力,并结合渐进式两阶段训练策略,有效对齐视觉、深度和语言表征与动作策略。此外,现有VLN数据集因其过度依赖显式指令跟随而缺乏自主决策能力,且真实世界数据不足,难以支撑现实自主导航任务。为解决这些问题,我们构建了一个新颖的自主导航数据集,通过以下方式将范式从指令跟随转向自主行为建模:(1)轨迹收集强调连续避障、自主规划与识别流程;(2)全面的真实世界数据整合。实验结果表明,AutoFly相比最先进的VLA基线方法成功率提升3.9%,且在仿真与真实环境中均表现一致。

0
下载
关闭预览

相关内容

基于视觉的无人机定位与导航方法研究综述
专知会员服务
21+阅读 · 2025年5月21日
【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
无人机与大型语言模型:现状与未来之路
专知会员服务
116+阅读 · 2024年6月16日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
《使用强化学习的自主无人飞行器导航:综述》
专知会员服务
84+阅读 · 2023年6月18日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
【无人机】无人机的自主与智能控制
产业智能官
53+阅读 · 2017年11月27日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员