无人机视觉语言导航：研究进展、挑战与技术路线图

摘要——无人机视觉语言导航（UAV-VLN）是具身智能（Embodied AI）领域的一项核心挑战，其研究重点在于赋予无人机理解高层人类指令的能力，并在复杂的 3D 环境中执行长时程（long-horizon）任务。本文对该领域进行了全面且系统性的综述，涵盖了从形式化任务定义到当前前沿技术的各个方面。我们构建了一种方法论分类体系，梳理了技术演进脉络：从早期的模块化方法和深度学习方案，到受大基座模型（Large Foundation Models）驱动的当代智能体系统——其中包括视觉语言模型（VLMs）、视觉-语言-动作（VLA）模型，以及新兴的将生成式世界模型与 VLA 架构相结合以实现物理具身推理（physically-grounded reasoning）的技术方案。本综述系统地回顾了支持标准化研究的关键资源生态，包括仿真器、数据集及评估指标。此外，我们深入分析了阻碍实际部署的主要挑战：仿真到现实的迁移鸿沟（sim-to-real gap）、动态户外环境中的鲁棒感知、语言歧义下的推理能力，以及大模型在资源受限硬件上的高效部署。通过综合分析当前的基准测试结果与局限性，本文最后提出了一个具有前瞻性的研究路线图，旨在引导未来对多机集群协同和空地协作机器人等关键前沿领域的探索。

1 引言 (Introduction)

使无人机（UAV）能够根据简单的自然语言指令（如“飞过坍塌的桥梁，寻找在屋顶挥手的人”）在复杂的垂直三维空间中进行导航，代表了机器人学、计算机视觉与自然语言理解交叉领域的一项核心挑战。这种能力被称为基于无人机的视觉语言导航（UAV-VLN），是更广泛的**具身智能（Embodied AI）研究中的一个重要子领域。其目标是开发能够理解语言指令并在物理世界中执行长时程（long-horizon）任务的自主智能体 [1], [2], [3]。向直观的语言化控制转型，不仅超越了传统的控制交互界面，增强了复杂作业中的人机协作，还提升了高端航空平台的易用性 [4], [5], [6]。其现实应用意义深远，涵盖了 GPS 受阻环境下的时效性搜救行动 [7], [8], [9]、森林火灾监测 [10]、大规模基础设施的自动化巡检 [11], [12]，以及智慧城市中的动态物流 [13], [14]。随着无人机逐渐融入这些领域，对智能化、语言驱动自主性的需求促使相关研究激增 [15]，因此迫切需要进行系统性的综述，以引导这一应用空间智能（Applied Spatial Intelligence）**领域的未来发展 [16], [17]。

当前，UAV-VLN 领域正经历着一场由成熟航空平台与大基座模型（Large Foundation Models）的突破性能力共同推动的范式演变 [18], [19]。这一演化标志着研究方向已显著脱离早期的模块化流水线，转向统一的具身多模态大模型（EMLMs），该模型将感知、推理与控制整合进一个内聚的框架中 [20], [21], [22], [23]。最值得注意的是，当前的最前沿趋势涉及生成式世界模型与视觉-语言-动作（VLA）策略的深度融合，如 $\pi_0$ [24]、GR00T-N1 [25] 和 Cosmos-Reason1 [26] 等模型所示，这些模型赋予了智能体物理常识和预测能力，从而实现鲁棒的长时程推理。尽管自基于写实图像导航的开创性工作以来 [27], [28]，地面机器人的视觉语言导航（VLN）已取得长足进步，但航空领域引入了一套独特且更复杂的挑战，这一差距最早由 AerialVLN [29] 等基准测试进行了系统性探讨。这些挑战长期以来限制了户外航空场景的研究 [30]，包括：在无预设拓扑图的连续 3D 动作空间中导航；在非结构化环境中处理具有复杂空间关系的长时程推理 [31], [32], [33]；以及克服严重的**仿真到现实（sim-to-real）**迁移鸿沟，这直接增加了实际部署的难度 [34]。近期针对户外 [35] 和室内 [36] 场景的基准测试正开始解决曾导致研究碎片化的数据稀缺问题，而本综述旨在对这些研究成果进行统一。

本文提供了关于基于无人机的视觉语言导航的全面且结构化的综述，勾勒了该领域从概念基础到当前最前沿技术的发展轨迹。我们的研究范围涵盖了整个研究流程，从任务的正式数学定义开始，追溯了从早期学习系统到当代由基座模型驱动的智能体的方法论演变 [37], [38]。我们调研了支撑可重复研究的关键资源生态系统，包括高保真仿真器、涵盖农业和城市勘察等多样化领域的基准数据集 [39], [40]，以及标准化的评估指标。核心重点在于对根本性挑战的批判性分析，即 Sim-to-Real 鸿沟、感知的鲁棒性、语言歧义下的推理，以及大模型在资源受限硬件上的高效部署。我们明确排除了不在此焦点范围内的课题，如底层飞行控制器设计、详细的无人机硬件航空电子设备 [41]，以及关于地面 VLN 的广泛综述 [28]。此外，我们将 UAV-VLN 这种第一人称（egocentric）、面向动作的视角，与遥感基座模型（Remote Sensing Foundation Models） [42], [43] 所处理的第三人称（exocentric）、分析性任务区分开来，仅在背景化航空导航的独特挑战时引用后者。本综述的主要贡献在于：建立了追踪该领域发展轨迹的明确方法论分类体系；对阻碍实际部署的核心技术挑战进行了综合分析；并提出了具有前瞻性的研究路线图。为实现这些贡献，本文余下部分的结构旨在引导读者从基础概念走向未来前沿。第 2 节通过将 UAV-VLN 问题正式定义为**部分可观测马尔可夫决策过程（POMDP）**来奠定理论基础。第 3 节展示了我们的方法论分类，描绘了智能体架构从模块化及早期学习方法向现代基座模型驱动系统的演进。第 4 节全面概述了实现标准化基准测试所需的核心仿真器、数据集和评估协议。第 5 节和第 6 节致力于深度剖析主要挑战，侧重于 Sim-to-Real 鸿沟以及鲁棒性、安全性和效率等交织的问题。第 7 节勾勒了通往未来前沿的研究路线图，包括多机集群协同 [44], [45], [46] 和空地协作机器人 [7]。最后，第 8 节总结了我们的核心发现，并重申了未来探索中最具前景的方向。