在当今高速武器主导的战场空间,决策时间线已超越人类认知速度,从而产生了对支持训练、模拟和实时评估的智能体的需求。由于战场信息很少完整,此类智能体必须在信息不完善的条件下运行。先前的研究已探索了用于管理不确定性的强化学习、基于规则的人工智能以及概率方法。本文研究了以实现为深度神经网络的Q值函数,旨在从给定状态中选择最具前景的行动。方法在完美信息数据上训练Q值近似器,以从可观测特征中学习战术决策,然后在完美与不完善信息条件下对其进行评估。比较了单一架构与采用专用网络处理不同子任务(单位选择与目标/行动选择)的分解架构。尽管是在完美信息下训练,但分解模型表现良好,并且在测试时信息被屏蔽的情况下仍能保持有效性;然而,性能会随着想定复杂性的增加而下降。结果表明,深度Q值近似器可以在没有显式概率追踪的情况下泛化到不确定性条件,特别是在决策被分解为更简单预测时。研究结果为开发能够在信息不完善条件下运行、用于军事模拟与决策支持的人工智能指明了一条路径,同时也凸显了复杂性的限制。
本研究由以下主要研究问题指导:
为全面解答此问题,考察了以下辅助研究问题:
这些问题指导了实验设计和分析方法,将研究聚焦于影响神经网络在不确定性条件下实际军事应用的架构考量。
本论文共分五章,系统地探讨用于不确定性条件下战术决策的神经网络架构设计。第一章介绍了军事背景下不确定性决策的基本挑战,在历史对战争迷雾认知的框架内定位本研究,同时确立了本项研究的具体动机、研究问题、范围和方法论路径。本章将本工作置于更广阔的军事人工智能研究背景中,同时将其与先前处理战术模拟中不确定性的方法区分开来。
第二章提供了理解本研究所需的理论与技术背景。它回顾了关于不确定性条件下军事决策、处理部分可观测性问题的强化学习方法、用于空间推理的神经网络架构以及先前将人工智能应用于兵棋推演想定的相关文献。本章建立了支撑架构比较的概念基础。
第三章详述了本研究所采用的方法论,描述了Atlatl模拟环境、基线人工智能实现、数据收集流程以及四种神经网络架构的设计。本章提供了观测编码、网络架构、训练方法和评估框架的全面技术规格,使得在方法之间进行严格比较成为可能。
第四章从多个维度对实验结果进行了系统分析:架构性能比较、信息条件比较、计算效率评估和统计显著性分析。通过详细的统计证据和可视化,本章量化了在不同想定复杂性和信息可用性条件下,不同架构方法之间的性能差异。
第五章对全文进行了总结,将实验结果综合起来,明确回答了第一章提出的研究问题。它阐述了这些发现对神经网络架构的理论理解和实际军事应用两方面的意义,同时指出了基于这些架构见解的未来研究方向。
这种结构使得从问题阐述,到方法论发展,再到实证发现及其意义,能够形成一个连贯的递进过程。每一章都建立在之前内容的基础上,同时始终聚焦于核心研究问题:神经网络架构选择如何影响不确定性条件下的战术决策效能。