自动化流程在防务领域的整合持续扩展,提升了军队的杀伤力。人工智能加速了决策周期,消除了人操作硬件的限制,并通过实现跨多个系统的无缝集成来改善协同。压制敌防空任务至关重要,因其能压制敌方防空系统,确保空中优势,并使飞机在对抗环境中能够安全有效地作战。因此,有必要将新兴的自主能力与防务领域的重要任务集相结合。本研究探讨自主无人对地打击问题,将其建模为一个连续时间马尔可夫决策过程,以识别智能体在机动与开火决策中的最优策略及涌现行为。高级仿真、集成与建模框架提供了问题域内实体间高逼真的六自由度交互。研究采用一种深度强化学习方法,具体而言是行动者-评论家方法,以应对三种不同的压制敌防空作战。这些作战任务始于较简单的场景以验证概念,随后逐步增加复杂度以评估算法的鲁棒性。神经网络用于近似价值函数,并通过迭代更新来优化策略。研究还包括设计超参数调优实验以增强涌现行为的可能性,随后进行扩展训练以分析策略性能并观察涌现的策略。
本文的其余部分结构如下。第二章介绍与空战、压制敌防空作战、飞机航路规划及强化学习算法相关的文献。第三章详述了我们的模型构建及强化学习方法,旨在为自主无人作战飞行器在压制敌防空任务中提供高质量决策能力。第四章展示计算实验的结果并对所得自主无人作战飞行器策略进行深入分析。第五章总结研究并概述未来研究的途径。