大语言模型辅助的无人机作业与通信：多维度综述与指南

由于无人机（UAV）具备出色的移动性与灵活性，其已被广泛应用于各类场景。近期，大语言模型（LLM）的突破性进展为提升无人机智能化水平提供了变革性机遇，使其超越了传统的基于优化和基于学习的方法。通过将 LLM 集成至无人机系统中，可以实现更高级的环境理解、集群协同、移动性优化以及高层任务推理，从而实现更具自适应性且具备上下文感知能力的空中作业。

本综述系统性地探讨了 LLM 与无人机技术的交叉领域，并提出了一套整合现有架构、方法论及应用场景的统一框架。首先，我们针对无人机领域的 LLM 适配技术进行了结构化分类，包括预训练、微调、检索增强生成（RAG）及提示工程（Prompt Engineering），并阐述了思维链（CoT）和上下文学习（ICL）等关键推理能力。其次，我们分析了 LLM 辅助的无人机通信与作业，涵盖导航、任务规划、集群控制、安全性、自主性以及网络管理。随后，本综述进一步讨论了多模态大语言模型（MLLM）在人机集群交互、感知驱动导航及协作控制中的应用。最后，我们探讨了包括偏见、透明度、问责制和人机协同（HITL）策略在内的伦理问题，并概述了未来的研究方向。总体而言，本研究将 LLM 辅助的无人机定位为构建智能化与自适应空中系统的基石。

第一部分：引言 (I. INTRODUCTION) 翻译

**1. 无人机应用背景与重要性

无人机（UAV）已成为跨领域应用中的关键赋能技术，包括环境监测 [1]、公共安全 [2]、交通运输 [3]、农业 [4] 以及基础设施巡检 [5]。例如，无人机可用于追踪环境变化、支持灾害应急响应、评估作物健康状况、派送包裹及辅助交通管理。凭借其灵活性与移动性，在传统地面系统受限或不可行的场景下，无人机提供了高效且具成本效益的解决方案 [6]。

**2. 通信视角下的无人机

从通信角度来看，无人机对于增强无线网络日益重要。它们可作为空中基站扩展网络覆盖范围，特别是在基础设施稀缺或受损的地区 [7, 8]。此外，无人机还可以充当补盲中继 [9, 10]、收集地面设备数据 [11]，并提供空中边缘计算能力 [12] 以降低通信延迟。另一方面，无人机可作为蜂窝用户接入网络，其安全导航、控制与感知需要可靠且低延迟的连接 [13]。当多台无人机协作时，可构建飞行自组织网络（FANETs），实现自主组织并提供大地理范围或无基础设施环境下的延伸通信服务。这些能力使无人机成为无线回传、智慧城市应用及未来移动通信系统的核心组成部分 [15]。

**3. 市场规模与智能化需求

成本效益、作业灵活性和动态部署能力的提升正推动无人机生态系统的飞速扩张。现代无人机平台日益配备高分辨率相机和精密传感器，实现了大规模、低成本的数据获取。因此，无人机在多个行业领域的民用价值显著提升 [16]。全球无人机市场规模在 2024 年估值为 364.1 亿美元，预计到 2032 年将达到 1259.1 亿美元，年复合增长率（CAGR）达 17.3% [17]。市场的蓬勃发展凸显了对智能无人机辅助解决方案日益增长的需求。

**4. AI 赋能及其局限性

与此同时，人工智能（AI）已成为提升无人机辅助通信系统自主性与效率的关键驱动力。AI 技术广泛用于优化无人机移动性、资源分配和调度，使无人机能动态适应空地作业需求。然而，采用 AI 的主要动力源于无人机作业环境固有的复杂性和高动态性，在这种环境下，精确的解析建模往往不可行。此外，无人机的移动性导致了高维状态与动作空间，而有限的感知能力和间歇性的连接导致地面设备信息（如电量、信道状况）往往是不完整或过时的。这些挑战使得数据驱动和基于学习的解决方案（Learning-based solutions）与无人机网络优化具有极高的适配性 [17]。

**5. 大语言模型（LLM）的兴起

近期，随着大语言模型（LLMs）的出现，AI 领域取得了重大突破。LLM 在语言理解、生成和推理方面表现出卓越能力。依托自然语言处理（NLP）和机器学习（ML）数十年的积淀，LLM 已成为 AI 辅助系统发展的核心动力。其解析复杂指令和执行多步推理的能力引起了广泛关注。在无人机系统中，LLM 为自动化复杂决策过程、增强情境感知以及支持智能网络运营提供了新机遇 [18]。然而，在安全敏感和任务关键型环境中部署 LLM 辅助方案也带来了伦理与运营上的严峻挑战，包括数据隐私、偏见公平性及问责透明度。解决这些问题对于确保 LLM 的可信集成至关重要。

**6. 多模态与异构数据

此外，尽管顶尖 LLM 主要处理文本数据，但无人机辅助网络本质上会产生异构信息，包括无线信号、视觉感知数据和上下文元数据。这种模态失配催生了**多模态大语言模型（MLLMs）和视觉语言模型（VLMs）**的发展，使其能够对多种数据源进行联合处理与推理 [19]。这种多模态智能对无人机尤为重要，因为有效的决策往往依赖于通信、感知与环境信息的深度整合。

A. 结合无人机与 LLM 的意义 (Why Combining UAVs and LLMs Matters)

将无人机与 LLM 结合，引入了传统控制与优化方法难以企及的新高度。长期以来，优化技术（如资源分配和轨迹设计）一直是无人机通信的核心。然而，传统的凸优化或启发式算法在高度动态的环境中缺乏足够的自适应性。尽管深度强化学习（DRL）提供了灵活性，但往往面临泛化能力有限及**“模拟到现实”（Sim-to-Real）鸿沟的问题，阻碍了其在真实场景中的可靠部署。与传统的基于 ML 的优化方法相比，LLM 引入了一种以语义推理为中心而非单纯参数微调的新范式。LLM 运行在更高的抽象层级，能够对异构输入和任务级目标进行结构化推理。这使得 LLM 不再仅仅是优化器，而是无人机系统中的认知协调器（Cognitive Coordinators）**。具体而言： * 通信语义化： LLM 能够以自然语言形式理解网络日志、拓扑结构、信道状况及任务约束，将原始遥测数据转化为结构化的情境感知。 * 跨层整合： LLM 不是解决孤立的子问题（如功率分配），而是综合跨层信息来指导自适应频谱管理和集群资源协作。 * 自主性增强： LLM 通过多模态集成，将传感器数据、地图表示和文本任务描述统一到推理框架中。这实现了不确定条件下的动态任务分解和应急预案制定。 * 上下文学习（ICL）： LLM 的核心特性之一是 ICL，它能通过反馈实现实时适配，无需重新训练的计算开销。 * 可解释性与交互： LLM 的推理能力通过生成自然语言解释，显著增强了系统的透明度与信任感，降低了非专家用户操作无人机的门槛。

B. 核心贡献 (Main Contributions)

本文对 LLM 与无人机的交互进行了全面研究，主要贡献如下： 1. 综合综述与统一框架： 系统映射了 LLM 与无人机系统在作业、通信及伦理维度的融合路径，并提出了适配无人机挑战的结构化技术分类（预训练、微调、RAG、提示工程）。 1. 多模态模型（MLLM）深度探讨： 详细分析了 MLLM 作为下一代无人机赋能技术的核心架构及新兴能力（如 MCoT 和 M-ICL），并展示了其在视觉语言导航和集群控制中的应用。 1. 伦理与风险严谨分析： 深入剖析了 LLM 辅助无人机系统（LAUS）在偏见、公平性、透明度及环境影响方面的挑战，并提出了观测与调试的缓解策略。

C. 综述之综述 (Survey of Surveys)

（本部分对现有文献如 Javaid et al. [20], Cidjeu et al. [22], Yumeng et al. [23] 等进行了总结，强调了本文与现有研究的区别：本文更聚焦于通信可靠性、多模态数据整合以及从理论到实践的案例研究。）

成为VIP会员查看完整内容

相关内容

大语言模型

关注 65

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

专知会员服务

45+阅读 · 2025年11月8日

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

16+阅读 · 2025年10月24日

大语言模型驱动的AI智能体通信综述：协议、安全风险与防御对策

专知会员服务

29+阅读 · 2025年6月25日

《大语言模型智能体：方法、应用与挑战综述》

专知会员服务

58+阅读 · 2025年3月28日