UAV vision-language navigation (VLN) requires an agent to navigate complex 3D environments from an egocentric perspective while following ambiguous multi-step instructions over long horizons. Existing zero-shot methods remain limited, as they often rely on large base models, generic prompts, and loosely coordinated modules. In this work, we propose FineCog-Nav, a top-down framework inspired by human cognition that organizes navigation into fine-grained modules for language processing, perception, attention, memory, imagination, reasoning, and decision-making. Each module is driven by a moderate-sized foundation model with role-specific prompts and structured input-output protocols, enabling effective collaboration and improved interpretability. To support fine-grained evaluation, we construct AerialVLN-Fine, a curated benchmark of 300 trajectories derived from AerialVLN, with sentence-level instruction-trajectory alignment and refined instructions containing explicit visual endpoints and landmark references. Experiments show that FineCog-Nav consistently outperforms zero-shot baselines in instruction adherence, long-horizon planning, and generalization to unseen environments. These results suggest the effectiveness of fine-grained cognitive modularization for zero-shot aerial navigation. Project page: https://smartdianlab.github.io/projects-FineCogNav.


翻译:无人机视觉语言导航(VLN)要求智能体从自我中心视角在复杂三维环境中导航,同时遵循长时域上的模糊多步骤指令。现有零样本方法存在局限性,通常依赖大型基础模型、通用提示词及松散协调的模块。本文提出受人类认知启发的自上而下框架FineCog-Nav,将导航分解为语言处理、感知、注意力、记忆、想象、推理与决策等细粒度模块。各模块由中等规模基础模型驱动,辅以角色特定提示词与结构化输入输出协议,实现高效协作并增强可解释性。为支撑细粒度评估,我们构建了AerialVLN-Fine基准数据集,包含从AerialVLN中筛选的300条轨迹,提供句子级指令-轨迹对齐及包含显式视觉终点与地标参照的优化指令。实验表明,FineCog-Nav在指令遵循度、长时域规划及未知环境泛化能力上持续优于零样本基线方法。该结果验证了细粒度认知模块化对零样本空中导航的有效性。项目主页:https://smartdianlab.github.io/projects-FineCogNav。

0
下载
关闭预览

相关内容

【ICLR2025】视觉与语言导航的通用场景适应
专知会员服务
9+阅读 · 2025年1月31日
纳卡冲突对智能化战争无人机作战的研究
专知会员服务
46+阅读 · 2024年9月21日
RSS 2024 | NaVid:视觉语言导航大模型
专知会员服务
34+阅读 · 2024年6月9日
【CVPR2024】用于视觉-语言导航的体积环境表示
专知会员服务
19+阅读 · 2024年3月24日
【AAAI2024】VLN-VIDEO: 利用驾驶视频进行户外视觉语言导航
专知会员服务
10+阅读 · 2024年2月10日
【CVPR2023】KERM:面向视觉语言导航的知识增强推理
专知会员服务
24+阅读 · 2023年3月30日
军用无人机行业深度报告
专知
17+阅读 · 2022年8月21日
智能无人作战系统的发展
科技导报
36+阅读 · 2018年6月29日
智能无人机集群技术概述
无人机
46+阅读 · 2018年2月28日
无人机飞行控制方法概述
无人机
12+阅读 · 2017年10月7日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
29+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员