面向空中机器人的视觉语言导航：迈向大语言模型时代

空中视觉语言导航 (Aerial VLN) 旨在通过将自然语言关联至视觉感知，使无人机 (UAV) 能够理解人类指令，并在复杂的三维环境中实现自主导航。与陆地机器人导航不同，空中环境引入了多项本质差异化的挑战，包括：六自由度 (6-DoF) 连续动作空间、由高度和姿态变化引起的剧烈视角波动、具有冗余且结构复杂指令的城市级规模导航，以及轻型平台所带来的载荷计算资源限制。本文对 Aerial VLN 领域进行了批判性的分析与综述，特别关注了近期大语言模型 (LLMs) 与视觉语言模型 (VLMs) 的集成趋势。我们首先正式引入了 Aerial VLN 问题，并将单指令导航 (AVIN) 与对话式导航 (AVDN) 定义为两大基础交互范式。随后，我们将现有的 Aerial VLN 方法归纳为五类架构体系： 1. 序列到序列 (Seq2Seq) 与基于注意力机制的方法； 1. 端到端 LLM/VLM 方法； 1. 分层架构 (Hierarchical) 方法； 1. 多智能体 (Multi-agent) 方法； 1. 对话驱动的导航方法。

针对每一类别，我们系统地分析了其设计原理、技术权衡以及性能表现。同时，本文批判性地评估了 Aerial VLN 的评估基础设施，包括数据集、仿真平台及评价指标，并指出了它们在规模、环境多样性、现实关联度以及指标覆盖范围方面的缺陷。通过对比共享基准测试下的跨方法表现，我们分析了关键的架构权衡，包括离散与连续动作、端到端与分层设计以及仿真与现实的差距 (Sim-to-reality gap)。最后，我们总结并提出了七个具体的开放性问题：长程指令关联、视角鲁棒性、可扩展空间表示、连续 6-DoF 动作执行、机载部署、基准测试标准化以及多无人机集群导航，并结合全篇综述给出的实证证据指明了具体的研究方向。 **索引词：**视觉语言导航，无人机 (UAV)，大语言模型 (LLM)，视觉语言模型 (VLM)，视觉基础模型，自主导航。

I. 引言

A. 研究背景与动机

无人机 (UAV) 凭借其空间移动性、灵活的视角以及快速部署能力 [6], [7]，已成为多个领域不可或缺的平台——从智能交通与物流 [1], [2] 到精准农业 [3]、源搜索 [4] 以及基础设施巡检 [5]。随着这些应用在范围和复杂度上的扩展，对具备更强自主性、能适应非结构化环境并能与人类操作员自然交互的无人机系统的需求也日益增长 [8]。实现这种自主性的核心瓶颈在于人类意图与机器人动作之间的接口，即人机交互 (HRI)。如图 1 所示，传统的无人机导航系统遵循模块化的“感知-规划-控制”流水线来执行预定义的飞行命令 [9], [10]，或采用基于学习的方法进行模块集成与视觉-动作映射 [11], [12]。虽然这些架构对于具有明确航点的结构化任务非常有效，但缺乏高层任务推理能力：具体而言，即无法将自然语言指令转化为由实时视觉感知引导的落地动作序列。这正是空中视觉语言导航 (Aerial VLN) 的核心问题：对指令进行推理、对场景进行解析并执行动作 [13], [14]。空中视觉语言导航并非简单地将陆地 VLN 方法应用于飞行平台。空中领域特有的结构属性，如状态空间扩张、视角多变性以及更大的空间尺度，带来了与陆地 VLN 截然不同的挑战。解决 Aerial VLN 问题具有重大的实际意义。智慧城市管理中的语言引导无人机巡逻 [15], [16]、物流中的“最后一公里”交付无人机 [17]、消防无人机 [18] 等均为 Aerial VLN 的潜在应用场景。在这些场景中，Aerial VLN 作为赋能技术，将无人机从远程操作工具转变为能够理解并行使人类意图的自主合作伙伴。近期大语言模型 (LLMs)（包括 GPT-4 [19]、DeepSeek [20]、Qwen [21]）以及视觉基础模型 (VFMs)（如 CLIP [22]、SAM [23]、Grounding DINO [24]）的进展，催生了 Aerial VLN 系统设计范式的转变。新兴的室内及陆地 VLN 研究 [25], [26], [27], [28] 也展示了将 LLM 集成到 VLN 中的巨大潜力。传统方法依赖于在有限航拍数据集上从头训练的任务特定编码器，而以 LLM 为中心的方法则利用大规模预训练模型的语义推理、世界知识和零样本泛化能力，将其作为导航系统的“认知核心” [8], [29]。这种集成产生了新的架构范式： * 端到端方法：直接将指令和感知映射为动作 [30], [31]； * 分层方法：将基于 LLM 的规划器与传统飞行控制器相结合 [32], [33], [34]； * 多智能体方法：在协作的 LLM 智能体之间分配推理任务 [35], [36]。

这些进展扩展了 Aerial VLN 的能力边界，但也带来了计算效率、仿真向现实迁移 (Sim-to-Real) 以及语义推理与鲁棒飞行控制耦合等新挑战。尽管进展迅速，Aerial VLN 的研究格局仍显碎片化。各方法在不同的基准测试上使用互不兼容的指标进行评估，导致跨方法对比极其困难。现有的几篇 VLN 综述 [37], [38], [39] 虽然涵盖了陆地任务，但要么完全忽略了空中平台，要么仅将其视为边缘延伸。同期的 AeroVerse-Review [29] 虽然广泛覆盖了 Aerial VLN，但在方法分类上存在一定模糊性，且未提供定量的跨方法对比。Tian 等人 [8] 综述了 LLM 与无人机更广泛的集成，但并未专门聚焦于 VLN 问题及其独特的技术挑战。这些空白促成了本综述的撰写，旨在提供一个批判性的综合评价——尽可能在共享基准上对比各方法，评估现有数据集和仿真平台的充分性，并识别 Aerial VLN 中“仿真-现实”迁移的开放性问题。

B. 综述范围

为确保覆盖范围的透明度和可复现性，我们定义本综述的边界和筛选标准如下： * 文献来源：涵盖同行评审的期刊及会议（如 IEEE, ACM, AAAI, NeurIPS, CVPR, ICRA 等），同时考虑到 LLM 集成导航领域的飞速发展，亦包含 arXiv 上已获得社区广泛认可的预印本。 * 时间跨度：核心时间段为 2018 年（首个 Aerial VLN 数据集出现 [40]）至 2026 年，重点关注 2023 年以后基于推理导航的范式转向。 * 核心聚焦：本综述专注于受自然语言指令引导并结合视觉感知的无人机导航。

C. 贡献与组织架构

本论文的主要贡献如下： 1. 统一的 Aerial VLN 方法架构分类法：将研究归纳为五大类别：Seq2Seq 与注意力方法、端到端 LLM/VLM 方法、分层方法、多智能体方法及对话式导航方法。 1. 对评估基础设施的批判性评估：对支撑研究的数据集、仿真平台和评估指标进行结构化分析，识别其在规模、多样性和保真度方面的差距。 1. 定量与定性的对比分析：汇总共享基准上的实验结果，分析关键架构权衡，并记录已在物理无人机平台上验证的方法，以探讨仿真-现实差距 (Sim-to-Real gap)。 1. 主题化的开放问题路线图：识别并总结了包括长程指令关联、视角鲁棒性、机载部署效率、集群导航在内的七大开放问题，并指明研究方向。