大语言模型(LLM)正日益被探索作为网络物理系统的高级推理引擎,然而,将其应用于实时无人机集群管理仍然面临挑战,原因包括异构接口、有限的“接地”能力以及需要长时间闭环运行。本文提出了一种与任务无关的、智能体增强的LLM框架,用于无人机集群控制。用户可以用自然语言表达任务目标,系统则通过接地的实时交互自主执行。所提出的架构结合了一个基于LLM的智能体核心、一个模型上下文协议网关,以及一个基于W3C万维物联网标准的无人机物联网抽象层。通过将无人机、传感器和服务暴露为标准化的W维物联网“物”,该框架实现了结构化的工具交互、持续状态观测和安全的驱动执行,而无需依赖代码生成。我们基于ArduPilot仿真,在四种集群任务和六种最先进的LLM上评估了该框架。结果表明,尽管具备强大的推理能力,但当前通用LLM在缺乏显式“接地”和执行支持的情况下,即使对于简单的集群任务,也难以实现可靠的执行。特定任务的规划工具和运行时保护措施显著提高了系统的鲁棒性,而令牌消耗量本身并不能指示执行质量或可靠性。总体而言,该研究既凸显了基于LLM的集群控制的潜力,也揭示了其当前的局限性,表明智能体增强的执行和标准化的设备抽象对于将自然语言意图转化为可靠的集群行为至关重要。
尽管本文无意解决上述所有挑战,但它研究了用于实时、任务无关的无人机集群管理的AI智能体,在执行过程中无需人在回路的干预。我们考虑一种场景:用户用自然语言(例如,“覆盖一片区域”)指定任务目标,而AI系统则自主协调无人机从起飞到任务完成的各项动作。作为本研究的主要贡献,我们提出了一种用于长时无人机任务的智能体化LLM架构,支持实时状态检索、自适应决策和情境推理。与大多数现有的应用于机器人集群的LLM方案(在任务初始化时依赖静态代码生成)不同,我们的平台引入了两项关键创新。首先,它利用LLM推理和函数调用机制来协调无人机动作,无需任何代码生成阶段。其次,它通过一个闭环的“推理-执行-监控”循环,实现了持续的集群控制以及对无人机和环境实时反馈的适应。LLM智能体与物理世界之间的交互是通过模型上下文协议和W3C万维物联网标准实现的[11]。通过将每架无人机建模为一个W维物联网“物”,该框架允许LLM通过标准化接口发现、查询和驱动集群资源,从而将任务逻辑与平台特定的API和协议解耦。该架构进一步扩展了一个执行控制器智能体,用于监控运行时的条件并触发保护性提示[12],以引导推理并确保任务的安全执行。
还在一个混合现实-仿真环境中进行了广泛的实验评估,通过将我们的平台与ArduPilot框架对接,以实现真实的飞控和物理仿真。我们考虑了三种集群任务类型:区域覆盖(使用和不使用规划工具)、编队控制,以及与地面设备通信的智能灌溉。针对每种任务,我们评估了六种支持函数调用、涵盖不同规模和部署特性的最先进的LLM:GPT v5.2、DeepSeek v3.2、GLM v4.7、Grok v4.1 Fast、Claude Haiku v4.5 和 Qwen 3 8B。
研究结果为LLM在基于智能体的集群管理中的性能和适用性提供了多方面的洞见。例如,我们注意到,在覆盖场景中,整合外部知识(例如,文献中的定位算法)通常会提高性能,尽管这种提升并非在所有LLM模型中都一致。为低延迟推理优化的小型LLM通常表现出比大型模型更低的任务性能。最后,任务成功率和令牌消耗(即运营成本)之间没有观察到明显的相关性。简而言之,我们的贡献包括:
本文其余部分组织结构如下。第2节回顾相关工作。第3节介绍系统架构和运行流程。第4节描述实现细节。第5节介绍实验设置和结果。第6节概述未来工作。
在本文中,我们提出了一种新颖的、与任务无关的软件框架,该框架支持在动态和不确定环境中运行的异构无人机集群的、基于LLM的自主管理。该框架的主要目标是允许用户使用自然语言指定高级任务目标——例如区域监视、编队控制或分布式数据收集。随后,系统自主协调多个空中设备之间的感知、驱动和移动,以执行任务。
图1:所提出的智能体增强、WoT导向架构的高层概述。智能体封装了一个LLM和一个具有持久提示和保护机制的智能体核心,通过受控的MCP中介调用来与WoT生态系统交互。
图1展示了所提出架构的高层概述。与第2节介绍的最新技术方法相比,我们的方案引入了以下新颖之处:
项目N1和N2是通过在模型上下文协议环境中采用W3C万维物联网标准实现的[11, 18]。具体来说,由W3C标准化的WoT范式提供了一个统一的抽象层,异构设备通过此层将它们的功能作为Web资源暴露出来,并用机器可读的“物描述”来描述。在提出的架构中,所有系统能力——包括无人机、传感器、抽象任务状态和支持服务——都被统一地暴露为WoT“物”。因此,异构无人机平台和辅助服务可以被无缝集成,无需修改核心的集群管理逻辑。
此外,通过TDs可访问的系统状态,经由MCP协议实时暴露给LLM。MCP是一个使AI应用程序能够连接到外部数据提供商的开源标准。因此,集群可以在任务执行期间通过AI智能体执行的一系列调用来进行管理,而无需任何代码生成阶段。
最后,为了实现N3,我们设计了一个智能体核心模块,该模块通过将决策限定在可用的WoT“功能”范围内,将LLM的推理“接地”在物理世界中。具体而言,智能体核心通过结构化的工具调用和响应来中介执行,从而限制允许的交互空间并缓解幻觉命令,同时执行反馈被逐步纳入后续的推理中。在下文中,我们将详述图1所示架构的三个主要子系统。最后,在第3.4节,我们将举例说明端到端的执行流程。