《基于无模型深度强化学习的导弹规避机动生成》

无人作战飞行器在现代军事冲突中扮演着重要角色，其能够执行情报、监视、侦察和目标捕获任务，同时携带导弹、炸弹及反坦克制导导弹等机载武器。然而，无人作战飞行器使用的增加也促使防空领域出现了更先进的应对方案。本文提出了一种深度强化学习方法，用于为作战飞行器生成在线导弹规避机动。由于导弹高达8马赫的速度与飞行器有限的2.5马赫速度，该问题变得复杂。系统采用双延迟深度确定性策略梯度算法来训练一个智能体，使其能够在复杂战斗环境中实时决策最佳规避战术。算法使用了一个包含两项的奖励函数，一项是终止状态的稀疏奖励，另一项是通过战斗几何关系提供的连续奖励。副翼、方向舵和升降舵的控制指令直接输入算法，以确保所有潜在的逃脱机动都在可见范围内。所提出的方法在广泛的仿真中实现了59%的成功率，展现了其增强飞行器作战能力的潜力。

近年来，无人作战飞行器的使用迅速增长，其目标是创建能够在各种环境中执行复杂任务的自主系统。无人作战飞行器最显著的优势在于其能够承受高过载而无须考虑人员因素。过载限制是指人或物体能够承受而不受伤害的最大加速度力，通常以重力加速度的倍数表示，它是涉及高速运动的各个领域的重要考虑因素。虽然人体的正向过载极限为9-10g，但其负向极限约为-3至-3.5g。由于这个较低的限制，人员无法执行某些潜在的逃脱机动，因为其身体条件会构成限制。对于无人作战飞行器，这些限制仅来自其结构，因此它们能够承受比人类更高的过载。然而，无人作战飞行器面临的一个关键挑战是规避来袭导弹的能力。在传统场景中，无人作战飞行器使用预定的战术来避开来袭威胁。然而，这些技术在复杂动态环境中已被证明不足，因此需要先进技术来增强无人作战飞行器的能力。

人工智能在解决复杂问题方面已显示出潜力，并已应用于机器人、游戏和自主系统等多个领域。强化学习为决策问题提供解决方案，使得能够基于给定目标寻找最佳行动。具体而言，强化学习算法采用重复运行的学习方案，在高不确定度下计算状态-动作对的近似价值。图1描绘了此类模型的智能体-环境信息循环。许多应用表明，具有稀疏奖励但大量训练回合的无模型值迭代算法，可能找到/收敛到一组罕见的解。考虑到空战问题的复杂性，在飞行器自主性中应用具有明确目标的强化学习算法，有潜力提高其作战性能和效能。

本文提出了一种基于强化学习的作战飞行器导弹规避机动生成方法。我们的系统利用最知名的深度强化学习算法之一——双延迟深度确定性策略梯度算法，来训练一个智能体实时决策最佳规避战术，使飞行器能够在复杂战斗环境中有效运作。该算法使用两个目标：一个是相当稀疏的，取决于成功或失败；另一个则根据飞行器的几何优势提供在线引导。为确保飞行器能够识别所有潜在的逃脱机动，副翼、方向舵和升降舵的控制指令被直接输入算法。通过广泛的仿真，本研究的结果表明，所提出的方法具有增强飞行器作战能力的潜力。

为此，本研究的第一部分将提供关于导弹规避的背景信息，第三部分将讨论文献中关于此主题的先前研究。接着是“方法论”部分，我们在其中描述所使用的方法、状态、动作以及在本节末尾描述所使用的仿真环境。在“仿真结果”部分，将提供关于实验和分析的信息。在最后一节，将总结所完成的工作。

成为VIP会员查看完整内容