《学习空中格斗：AFSIM中针对配备定向能武器的2v2空战近端策略优化与双深度Q网络对比》90页

本研究利用强化学习，在一个2v2目视范围内空战机动问题中训练两个配备定向能武器的蓝色方智能体。采用分阶段求解方法，反复调整和训练多种强化学习算法实现：近端策略优化和双深度Q网络。训练的第一阶段包括针对基本飞行要素（如高度、空速、目标接近度）的奖励塑形。训练的第二阶段基于第一阶段开发的策略，但奖励机制强调不惜一切代价赢得空战。在第一阶段，双深度Q网络的表现显著优于近端策略优化，获得了在43.1%的交战中击落两架红色方飞机的优异策略，而近端策略优化的对应比例为21.3%。然而，在第二阶段，近端策略优化产生的优异策略在61.1%的模拟交战中击落了两架红色方飞机，而最优的双深度Q网络策略仅能在53.4%的时间内达成此目标。虽然近端策略优化最终产生了具有最高战斗胜率的优异策略，但双深度Q网络的优异策略似乎更具普适性，能更广泛地应用于不同的空战环境。除了比较每种算法的优异策略外，我们还利用这些优异策略进行了概念验证，以评估调整定向能武器设置可能如何影响作战效能，发现增加定向能武器的射击角度范围能显著提高蓝色方在模拟回合中的平均总奖励。

为了获得对同等级别对手的空中优势，空军必须继续开发和利用新技术的潜能。自主无人作战飞行器就是这样一项具有前景的技术。

自主无人作战飞行器代表了美国空军一个尚未开发的潜力领域。几十年来，无人机一直被用于监视、情报收集和有限空袭，但能够进行空对空作战的无人机尚未得到充分开发或利用。如果得到适当开发，与美国空军有人驾驶飞机相比，自主无人作战飞行器将提供许多优势。首先，自主无人作战飞行器将挽救生命，因为更少的飞行员将置身于危险之中。其次，将人类从飞机中移除，消除了飞机设计上的主要限制。其中一个设计限制是飞机能够承受的过载设计值。借助抗荷服，人类飞行员最多只能承受8-9倍重力。然而，通过将人类移出驾驶舱，飞机可以被设计成承受更高的过载，使其能够执行更快、更急的机动动作，从而在战斗中更加有效。

自主无人作战飞行器的最后一个优势是成本。将人类从飞机中移除，就无需驾驶舱、氧气系统、抗荷服、头盔、显示器以及许多其他使人类能够在飞行中生存的昂贵设备。但除了生产成本之外，从训练的角度看，自主无人作战飞行器也可能更便宜。目前，每一位战斗机飞行员都要经过数年严格的飞行训练，在他们参加战斗之前很久就对纳税人产生了巨大的成本。然而，如果自主无人作战飞行器得到发展，它们可以被大规模训练和生产，有可能为纳税人节省资金，并以更低廉的价格提供更具杀伤力的作战力量。

但是，如何训练自主无人作战飞行器进行空对空作战呢？一种方法是基于人类对空对空作战的理解，开发一套基于规则的逻辑架构。这种方法需要教导飞行器识别其状态和环境，然后向飞行器灌输人类知识，以及针对其所处各种状态应执行何种行动的规则。相关研究讨论了这种方法的缺点。向自主无人作战飞行器灌输人类知识的一个固有问题是，它受限于人类不完整的知识。一架飞行器可能会发现自己处于近乎无限数量的战斗状态中。而人类，尽管我们尽了最大努力，也不知道在所有可能的战斗状态下应采取的最优行动。即使是训练多年的战斗机飞行员，也未必知道（并在所有情况下都认同）给定每种可能状态下的最优行动。此外，为每种可能状态编程一套遵循的规则算法要么不可能，要么至少是极其劳动密集型的。因此，基于人类理解的规则架构既不切实际，又将自主无人作战飞行器限制在次优的解决方案中。

替代向自主无人作战飞行器灌输模仿人类理解的规则架构的方法是，在建模空对空作战的基础框架的马尔可夫决策过程建模框架内使用强化学习，以发现高质量的行为策略。这个基础框架被称为空战机动问题。在为空战机动问题收敛到一个高质量的行为策略后，我们就可以将强化学习算法发现的行为策略赋予自主无人作战飞行器。强化学习是一种通过运行大量训练回合和迭代，使智能体能够探索并最终找到能使期望总奖励最大化的策略的求解方法。相关研究讨论了强化学习如何被用于训练计算机赢得单人游戏、多人游戏甚至具有两个竞争团队的复杂游戏。这些例子证明了强化学习在发现超越人类理解的高质量策略方面的潜力。

强化学习的试错训练过程无法使用实际的自主无人作战飞行器完成，因为这需要真实的空对空战斗。高质量的自主无人作战飞行器策略必须在战斗模拟中通过大量训练回合来开发。本研究专注于在目视范围内空战机动问题模拟中使用强化学习训练自主无人作战飞行器。在模拟中使用强化学习训练自主无人作战飞行器的好处是双重的。在模拟中学到的策略有可能转移到现实世界的自主无人作战飞行器上。另一个好处是单纯地改进模拟。如果我们模拟中的飞机遵循高质量的飞行策略，决策者就能更准确地评估各种空战场景下的潜在成功率。此外，如果决策者希望评估新技术在空战中的效能，模拟中表现智能的飞机将更好地展示这些新技术的全部潜力。

美军正在评估用于空战的一项未来技术是定向能武器。模拟定向能武器在空战中的使用有助于决策者预测定向能武器是否会给己方部队带来空战优势。这一判断有助于指导和聚焦对定向能武器开发的持续投资。此外，强化学习对最优行为策略的搜索使决策者能够了解飞行员或自主无人作战飞行器在空战中可能采用何种策略以最好地利用定向能武器。

先前的研究利用强化学习训练两个配备定向能武器的蓝色方飞机对抗两个没有定向能武器的红色方飞机。蓝色方部队使用一种称为双深度Q网络的强化学习算法进行训练。模拟中的红色方部队被赋予了一种基于规则的、预训练的行为策略。这些模拟在高级仿真、集成与建模框架内使用了六自由度飞机运动学模型。

本研究很大程度上利用了与先前研究相同的模拟环境，但除了使用双深度Q网络外，还使用了另一种强化学习算法——近端策略优化——来训练蓝色方部队。训练的近端策略优化变体包括多智能体近端策略优化和异质智能体近端策略优化。对多智能体近端策略优化、异质智能体近端策略优化和双深度Q网络的训练采用分阶段方法进行，早期阶段包括奖励塑形要素，后期训练则只奖励胜负。然后，从估计总折扣奖励以及蓝色方在交战中的成功率和习得行为方面，对异质智能体近端策略优化、多智能体近端策略优化和双深度Q网络产生的策略进行比较。

本文的其余部分组织如下：第二章介绍了涉及使用强化学习训练自主无人作战飞行器以模拟空战机动问题的相关文献。此文献综述也介绍了我们主要的强化学习算法——近端策略优化，并讨论了围绕多智能体强化学习的挑战。第三章更详细地解释了我们的2v2空战机动问题，对环境进行建模，并描述了使用多智能体近端策略优化、异质智能体近端策略优化和双深度Q网络训练蓝色方智能体的方法。第四章对结果进行分析，第五章总结研究并对未来研究提出建议。

成为VIP会员查看完整内容