随着监视、监测及搜救任务对自主航空系统需求的日益增长,利用无人机集群在复杂环境中实现持久覆盖与稳健性能,已成为研究热点。多旋翼无人机凭借悬停能力、精准机动性及在狭小空间作业的优势,尤为适配此类任务。然而,大规模集群的协同调度仍面临严峻挑战:集中式规划方法常受限于扩展性瓶颈,而完全分布式的多智能体强化学习路径则陷入训练困难、环境非稳态及“维度灾难”的困局。此外,纯仿真训练的模型常因动力学特性、传感精度及环境条件与现实世界的差异,难以实现向实体场景的无缝迁移。
本文提出一种面向多智能体轨迹规划的混合方法论,以应对上述挑战。该框架将针对搜索、跟踪等特定任务通过课程学习独立训练的强化学习模型,与一个确保集群安全协同行为的确定性集中控制器相结合。这种集成既利用了基于学习方法的环境适应性,又保留了确定性控制的可预测性与可靠性。系统设计采用模块化架构,允许在不重新训练全系统的前提下,将不同功能模块灵活集成至集群中。
本文核心目标有三:其一,构建可泛化的框架,将任务导向的强化学习模型集成至集中控制架构;其二,在可比条件下,评估两种基于强化学习的轨迹规划策略与一种确定性方法的性能差异;其三,通过缩比物理样机验证该方法从仿真环境向现实场景迁移的可行性。
研究结果表明,混合路径在适应性与鲁棒性之间实现了有效平衡。蒙特卡洛仿真实验显示,相较于基于航点的强化学习方法及确定性基准,基于航向的强化学习策略在重访周期、目标检测率及跟踪连续性等指标上表现更优。确定性控制器则在强化学习模型遭遇训练分布外场景时,确保了安全性与一致性。基于缩比实体样机的硬件在环实验进一步验证了该路径的可行性,不仅识别出仿真到现实的迁移挑战,更证实了所提架构可在室内环境中由小型多旋翼无人机实现部署。
结论指出,将强化学习模型与确定性控制相融合,构成了一种高效的无人机集群协同方法论。该路径具备良好的扩展性、模块化特征,并可泛化应用于监视以外的多元多智能体任务。定性分析表明,当强化学习与结构化控制框架结合时,能有效克服纯集中式或纯分布式方法的固有局限。未来研究方向包括:向更庞大复杂场景扩展、增强定位系统精度、集成更贴近实战的机载传感器,以及将实验拓展至户外环境。本研究为弥合无人机集群在持久监视及相关应用领域“仿真与现实”的落地鸿沟,迈出了关键一步。
图1.1:集群过程层级及其相互关系
本文后续结构安排如下: 第一章梳理多智能体轨迹规划与强化学习领域的相关研究;第二章阐述所提方法论,包括混合框架的架构设计与强化学习模型的训练流程;第三章介绍仿真环境与评估方案;第四章呈现各类规划策略的对比分析结果;第五章详述为初步验证而开发的缩比实体样机;第六章总结所提方法的优势与局限,并展望未来研究方向。