在无人机控制中引入人工智能可产生变革性影响,特别是当现实世界信息能够与无人机的感知、指挥与控制链路融为一体时——这属于日益成型的"物理AI"范畴。大语言模型若以通用知识为基础实现大规模训练,本身就具备优势;而当训练数据进一步纳入全球精细地形地貌拓扑等信息,并能实时接入气象等态势数据时,其价值更为突出。然而,LLM与无人机之间的接口层至今仍是瓶颈:每一种应用场景都需要费力的手工工程,才能将LLM训练所获得的"知识"对接到具体的无人机指挥控制逻辑上。本文解决了这一问题:提出一种对LLM型号无偏好、对无人机型号无偏好的接口策略,提供首个通用、灵活、完备且易用的无人机控制接口。具体而言,我们利用新兴的模型上下文协议(Model Context Protocol,MCP)——一套由AI系统访问外部数据、工具与服务的通用开放标准——在云端部署一台运行Linux的机器托管MCP服务器,并对Mavlink协议提供支持;Mavlink作为一种几乎被ArduPilot、PX4等数百万架无人机普遍采用的通用无人机控制语言,使接口得以贯通。我们在此基础上完成了真实无人机的飞行控制演示,并进一步在仿真无人机中验证了与谷歌地图MCP服务器集成的飞行规划与导航能力,可获取最新实时导航信息。这证明了一条将LLM与无人机指挥控制对接的通用路径——一种以自然语言直译为无人机控制的易用范式,把现代AI产业的能力版图与无人机技术实质性打通。
无人机的自主性传统上建立在机载图像与状态处理之上[1]。一个突出的例子是2023年由AI控制的竞速无人机击败人类飞手[2],其象征意义堪比1990年代IBM超级计算机击败国际象棋世界冠军。然而,受重量与能耗约束限制,所有级别和尺寸的无人机——尤其是小型无人机——机载算力天花板始终存在。随着联网无人机的成熟,将AI置于云端打开了全新空间:数据中心遍布全球,算力几乎无限,可供无人机实时调用。LLM正是此类技术中典型的"大规模训练产物"。但截至目前,AI/LLM与无人机之间的通用接口问题仍未解决。本文借助MCP标准,基于Mavlink通信协议,展示了一套完整、可贯通的无人机控制接口方案,并演示了对真实联网无人机的自主控制(含LLM驱动的实时动态决策),同时在虚拟(仿真)无人机上验证了更复杂的任务规划能力。这一路径是将AI的力量从虚拟世界释放到物理世界的关键钥匙。
本文支持MCP服务器架构的大语言模型列表如下: