《基于小型团队策略构建大规模无人机防御体系》

防御大规模敌方无人机集群需要协调方法，其扩展效能需超越传统的多智能体优化。本文提出通过将经过验证有效的小型防御团队策略整合为大规模部队的模块化组件，以此来扩展此类策略，并运用提出的框架实现。一种动态规划分解方法将这些组件在多项式时间内组装成大型团队，从而实现可扩展防御体系的高效构建，而无需进行穷举评估。由于一个单独表现出色的单元在组合后可能不再保持强势，会对多个小型团队候选策略进行采样。框架在评估大型团队结果与精炼模块化组件库之间迭代，从而收敛于日益有效的策略。实验证明，这种分区方法能够扩展到更大型的场景，同时保持效能，并揭示直接优化方法无法可靠发现的合作行为。

图：整体GA-DP混合框架。四阶段流程在一种为智能体分配启发式规则的分层策略结构上运行。这些启发式规则驱动所有决策。模拟器遵循标准的马尔可夫决策过程周期，但未采用强化学习——协调完全来自于启发式规则分配与GA-DP优化。

在对抗性环境中协调大型自主无人机团队是一项艰巨的挑战。即使智能体数量有限，可能策略的组合爆炸也会迅速使穷举搜索和简单优化变得不可行。强化学习和技能发现方法在小团队中已显示出潜力，但由于高样本复杂度、非平稳性、稀疏奖励或计算开销，它们通常难以有效扩展。

本文提出了一个分阶段的流程，用于基于小型团队策略构建大规模无人机防御体系。核心思想是首先在小型防御团队中识别并演化有前景的行为，然后系统性地将这些策略作为模块化组件复用于更大规模的部队。动态规划被用于在多项式时间内组装这些组件，从而将原本的超指数级搜索转化为可处理的优化问题。所得解决方案能够高效构建协调的集群防御体系，并可扩展至现实的对抗场景。虽然先前的无人机集群防御研究通常评估不超过12个智能体，但证明了该方法可扩展至攻击集群多达30个智能体、防御集群多达45个智能体，且执行稳定，大幅超出了现有基于学习方法的测试范围。

本文方法有意采用启发式规则而非直接策略学习。启发式规则具有几个对可扩展性至关重要的优势：它们需要有限的人工脚本编写，能够相对快速地构建多样化策略；可以以紧凑的数学形式表达，便于高效的JAX实现；无需强化学习训练的开销即可进行大规模仿真；在运行时，执行仅需对启发式代码进行轻量级的CPU级别评估——与神经网络推理相比——使其能够部署在内存有限的小型机载处理器上。先前的研究已探索过多智能体系统中的启发式演化，但将这些思想应用于集群防御，将启发式规则视为演化搜索中的亚染色体。

这项工作的贡献既是方法论上的，也是工程导向的。提出了一个结合遗传算法与动态规划的混合框架，利用染色体分解实现高效的演化搜索，并展示了其在大规模无人机防御仿真中的可扩展性。该框架完全在JAX中实现，并部署于高性能计算基础设施，它整合了利用先验知识和层次分解的算法结构，以避免穷举搜索，同时保持可处理性，即使跨越数十亿仿真时间步长。为扩展行为搜索空间，还使用大语言模型来生成和多样化候选启发式规则。这些元素共同支持了在计算上原本难以企及的规模上进行实验，使该框架成为未来集群防御研究和应用的一个实用基础。

本研究的主要贡献有四方面：
（1）一个用于可扩展防御的GA-DP混合框架。提出了一个框架，结合遗传算法在小规模对抗中演化有效染色体，并利用动态规划将其组装成适用于更大集群的策略。这使得在简单演化方法无法达到的规模上进行分析成为可能。
（2）与分层防御策略集成的动态规划。通过在层级结构内嵌入动态规划引导的分配，本文方法在子团队层面协调防御者，同时在智能体层面保持异质性，从而在复杂的集群遭遇中实现有效的追逃动态。
（3）演化搜索的染色体分解视角。本文表明，在此领域中有效的构建模块是整个染色体，而非单个基因，这凸显了保持高阶依赖性的重要性。
（4）通过大规模评估进行迭代优化。通过将大规模评估的结果反馈到小型团队启发式规则中，本文方法逐步提高启发式估计的准确性，并收敛于大规模的高性能防御者策略。这种迭代设计不仅提供了问题的解决方案，也为其系统化改进提供了经过验证的方法论。

本文证明，这种结合遗传算法与动态规划的方法可扩展至大型防御集群，并发现难以用传统表示法演化的合作策略。总之，这些贡献为优化对抗性多智能体系统中的协同行为提供了一条实用且可扩展的途径。

成为VIP会员查看完整内容