研究了深度强化学习在开发自主兵棋推演智能体方面的潜力。探讨了兵棋推演环境对于学习系统设计的相关特征、学习框架与算法的选择。尽管深度强化学习已被证明能在多种游戏中达到超人类水平,但这些发现仅能部分迁移到实际兵棋推演中。这归因于现实世界的限制,例如资金与数据资源的可用性,以及兵棋推演领域可能很少能满足的系统架构要求。现代战争模拟环境的高度逼真性往往伴随着系统延迟,从而导致不切实际的训练时长。为了进行实证分析,采用了多种深度强化学习技术,将其适配于广受欢迎的《指挥:现代作战》模拟环境,并为此环境中的深度强化学习训练应用提供了概念验证。
本文结构如下。第二部分回顾了当前关于深度强化学习应用于兵棋推演的文献。第三部分结合深度强化学习的应用,阐述了兵棋推演的主要制约因素。第四部分讨论了在兵棋推演中定义有效深度强化学习算法所需的设计选择。第五部分介绍了模拟软件《指挥:现代作战》以及为实现更低延迟而开发的轻量化替代方案“战争模拟器”。第六部分,将研究发现应用于《指挥:现代作战》和“战争模拟器”中的简单兵棋推演场景。报告了不同强化学习方案在两者中的训练性能。结论与展望在第七部分。在附录中,汇集了关于传统搜索算法、强化学习及深度强化学习的背景概念,并讨论了如何为特定兵棋推演选择最合适的强化学习算法。