关键基础设施系统是一个复杂的组件网络,易受环境因素、老化及攻击影响而发生故障。最优的资产维修与更换维护策略能够增强其支撑军事任务和社区功能的能力。然而在实践中,由于需要大量数据及指数级庞大的优化模型,难以制定出真正最优的关键基础设施系统维护策略。当前研究通常采用简化模型复杂度但仍试图生成近似最优策略的强化学习算法来规避此问题。本研究在一个简单的三组件基础设施网络上,评估了由线性规划生成的最优维护策略与由基于神经网络的深度强化学习生成的策略之间的差异。结果表明,即使使用理想的超参数进行调整,所评估的强化学习算法生成的策略性能也显著差于真实最优策略。此外,当模型参数变化时,最优策略的表现优于所有神经网络模型,这表明其对底层系统数据的不确定性敏感度较低。
本文其余部分结构如下。第2章回顾了用于生成分析维护策略的马尔可夫决策过程与机器学习算法。第3章概述了模型构建,并总结了线性规划与机器学习算法的数学基础。第4章详述了模型测试的设置、执行与结果。第5章给出了结论、项目总结以及对未来工作的建议。