数据耕耘法是一种基于仿真的方法,应用于国防领域,用于分析复杂系统并为决策者提供洞见。它可以产生非常庞大的多维数据集,需要借助元建模等复杂分析工具。可解释人工智能的进展扩展了可考虑的元模型类型;然而,构建一个拟合良好的机器学习元模型涉及许多任务,这可能对分析师来说非常耗时。自动机器学习可以通过自动化元模型的训练、调优和测试来为分析师节省时间。我们利用一个军事地面防空场景的基于代理仿真输出,比较了使用自动机器学习与不同实验设计所训练的元模型的性能。我们发现,自动机器学习可以合理地自动化元模型的构建,并通过考虑多种元模型类型为分析增加了稳健性;然而,实验设计的类型和规模会显著影响元模型的性能。
国防领域内的决策者通常需要理解涉及大量不确定因素的复杂系统(Horne等人,2018年)。对这些复杂系统进行现实世界实验并非总是可行;例如,在采购过程中,为测试目的获取所有备选方案可能成本过高。在其他情况下,决策可能涉及尚未开发或部署的系统。仿真模型可以帮助分析师和决策者形成对系统的基本理解、发现稳健的选项,并比较这些选项的可能结果(Kleijnen等人,2005年)。
数据耕耘法是在国防领域内开发的一种方法,旨在通过运行大规模、高效设计的仿真实验,增进对决策者面临的多种可能性的理解(Horne等人,2018年)。它是一个协作且迭代的过程,包含五个基本组成部分:快速想定原型构建、模型开发、实验设计、高性能计算以及分析与可视化;关于数据耕耘法方法的详细信息可参见Horne等人(2014年),而对当前数据耕耘能力的最新概述可参见Sanchez(2020年)。数据耕耘过程能生成大量的多维数据,需要借助复杂的分析技术来突显有用信息、提取结论并支持决策(Horne等人,2014年)。通常,需要多种技术来充分挖掘数据价值(Horne等人,2014年;Sanchez,2020年),包括构建元模型。如Kleijnen和Sargent(2000年)所定义,“元模型是对仿真模型所蕴含的输入/输出变换的一种近似”。元模型很有用,因为它们可以促进理解(Sanchez,2020年);例如,元模型的功能形式(如低阶多项式模型)可以提供关于仿真输出如何随仿真输入变化(如以线性或非线性方式)的洞见。元模型还有助于评估哪些仿真输入是仿真输出的关键驱动因素(Sanchez,2020年)。 过去军事数据耕耘应用中常见的元模型例子包括多项式回归模型、逻辑回归模型和决策树(Kleijnen等人,2005年;Lucas等人,2007年;Kallfass和Schlaak,2012年;Sanchez和Wan,2015年;Hill等人,2019年;Kesler等人,2019年)。这些类型的模型通常被描述为可解释或白盒模型:可以研究其输入/输出关系的内部映射,进而用于推断有关被建模系统的知识(Feldkamp等人,2020年;Feldkamp,2021年)。许多机器学习模型,如深度学习或集成模型,通常被描述为黑盒模型。研究已表明它们能比白盒模型实现更高的预测精度,从而在可解释性和准确性之间产生了权衡(Lundberg和Lee,2017年)。针对这种权衡,可解释人工智能领域应运而生,催生了旨在使黑盒模型透明化的方法(Feldkamp,2021年)。XAI包含广泛的方法,一些例子包括排列特征重要性和SHAP(Feldkamp,2021年)。这些方法在数据耕耘背景下的近期军事应用可参见Amyot-Bourgeois等人(2021年)和Serré等人(2021年)。Feldkamp(2021年)提出了一个将XAI方法纳入数据耕耘过程输出分析的工作流程。
如Feldkamp(2021年)所述,将机器学习模型与XAI方法结合应用,为构建和解释耕耘数据的元模型开辟了全新的技术范围。构建机器学习模型涉及许多任务,例如选择模型类型或模型族、调整模型超参数以及评估模型性能。这可能成为一个耗时的过程,尤其是在像数据耕耘这样的迭代过程中,随着实验的进行和演变,可能会生成一系列数据集。自动机器学习指的是自动化部分或全部机器学习任务的工具,旨在使机器学习实践更加系统化和高效化(Ghahramani,2019年)。自动机器学习工具的开源示例包括Auto-Sklearn(Feurer等人,2021年)、H2O AutoML(LeDell和Poirier,2020年)以及基于树的流水线优化工具(Le等人,2020年)。
自动机器学习为进一步扩展可用于输出分析的工具集提供了机会,并能在数据耕耘中实现可解释人工智能方面发挥关键作用。然而,在数据耕耘过程中构建元模型时,还必须考虑实验设计。这被描述为一个“先有鸡还是先有蛋”的问题(Kleijnen等人,2005年):所考虑的元模型类型取决于实验设计,反之亦然。虽然文献中提供了为白盒元模型选择合适的实验设计的指导,但针对黑盒元模型的指导似乎较少。因此,本文的目标是双重的。首先,它寻求通过自动机器学习提高元模型构建的效率。其次,它通过进行一个多模型、多设计的比较,同时也考虑实验设计中重复次数与覆盖范围之间的权衡,为选择黑盒元模型的实验设计提供指导。