《非平稳作战环境中航空医疗后送强化学习研究》60页

及时后送战场伤员对于减少军事行动中可预防性死亡至关重要。本研究将医疗后送调度问题构建为一个序贯决策过程，并探讨了在非平稳条件下强化学习的应用。使用非平稳霍克斯过程对医疗后送请求的动态到达率进行建模，并设计了一种融合信念状态的双深度Q网络算法，以预测未来请求。通过计算实验，分析了信念构建对决策质量和系统性能的影响。结果表明，融合信念状态的策略显著优于短视调度策略，将紧急伤员等待时间减少了高达49.68%，并将按时后送率提高了高达21.91%。研究结果突显了强化学习在动态和不确定环境下优化救护直升机使用的价值。

大多数可预防的美军战斗死亡发生在受伤后至抵达医疗设施前的关键窗口期。在这段高风险时期，生存依赖于战术战斗伤员救护。战术战斗伤员救护的第一阶段，即火力下救护，在作战人员受伤后立即开始。通过自救、互救和战斗医护救护的结合，伤员被撤离出直接危险区域，并在必要时使用止血带处理危及生命的外出血。此阶段的救护优先保护伤员、防止新增伤亡并完成任务。在战术战斗伤员救护的第二阶段，即战术战场救护，战斗医护人员对伤员进行分类、进行伤情评估、实施救治，并为第三阶段（即后送至医疗设施）做好准备。

战术后送采取两种形式：由救护平台进行的医疗后送，或由非救护平台进行的伤员后送。确定合适的后送平台取决于伤员的医疗状况，同时也取决于任务、敌情、地形与天气、可用兵力与支援、可用时间及民事因素。然而，总体上，军事条令将救护直升机指定为医疗后送的首选方式，特别是对于重伤员，这是由于其相较于地面救护车和伤员后送平台在速度、航程和途中救护质量方面的优势。

近年来，由于包括早期使用止血带、早期输血以及快速医疗后送至具备高级外科能力机构在内的改进培训和标准操作程序，各阶段战术战斗伤员救护的质量已得到提高。这些改进进而导致了可预防性死亡的减少。然而，一些单位的表现表明，在预防院前死亡方面仍有很大改进空间。在长达20年的持续作战行动中，他们实现了许多人认为无法达到的目标：零可预防的院前死亡。许多在部队中实施的相同院前救护技术和流程也在全军推行，但尚未达到相同的成功标准。这种差异部分可归因于对医疗培训和资源的更大需求，这超出了本研究范围；部分也可归因于对可用资源的次优利用。

先前研究表明，当前用于确定序贯资源分配的操作方法（即将救护直升机调度至伤员处）可以得到改进，以缩短后送时间。然而，这些结果的广泛适用性受到其共同假设的限制，即医疗后送请求的到达率是固定不变的。本研究通过明确模拟一个请求率随时间变化的军事医疗后送系统，放宽了这一假设，并试图解决两个主要问题：如何在非平稳条件下对医疗后送请求到达进行建模，以更好地反映真实世界的战斗场景？哪些强化学习技术可以在此类环境中改进医疗后送救护直升机的调度策略？将医疗后送调度问题构建为非平稳自激时空霍克斯过程下的序贯决策过程，并开发了融合预测机制的改进型双深度Q网络强化学习算法。通过整合用于预测请求到达的信念状态，增强了动态优化救护直升机使用的能力，从而实现更有效、及时的伤员后送，最终提高战场生存率。

本文其余部分结构如下。第2节对优化应急响应管理系统的相关模型和求解方法进行了文献综述。第3节描述了医疗后送调度问题、其作为序贯决策过程模型的构建以及强化学习算法求解方法。第4节报告了计算实验的结果与分析。第5节为全文结论。