《对手决策模拟：重复博弈行为生成机制的现实估计》65页

本研究考察了三种推断在重复博弈历史中用于复制对手决策所涉及参数的技术。本研究假设对手在重复博弈过程中，根据卡默勒与何（1999）所提出的经验加权吸引力模型进行学习与行动。经验加权吸引力模型在文献中得到了充分支持，其特点是包含多个具有推断价值的未知参数，这些参数描述了一位参与者的行为。在对对手的严格假设下，本文提出的启发式方法可作为其他推断技术的基准。经验风险最小化方法放松了启发式方法所需的一些假设，但仅为经验加权吸引力参数提供点估计。频率学派方法可利用历史数据为这些参数提供点估计，而贝叶斯方法则利用历史数据，在一系列参数值上更新一个假设的（即先验）概率分布，从而得到一个改进的（即后验）分布。针对此类复杂度和维度的问题，本研究提出并实现了一种以梅特罗波利斯-黑斯廷斯算法形式的马尔可夫链蒙特卡洛技术，以在给定一个观察到的博弈序列情况下近似得到后验分布。在一组具有不同结构的重复标准形式博弈上进行测试，为所提出的分析方法的效能和效率提供了见解。

本研究采用一种不针对当代作战环境中任何特定对手的理论视角，审视评估对手决策过程的挑战。具体而言，在观察到对手在一系列重复的竞争性互动中所作出的决策后，本研究考察了多种替代模型与分析技术，以期就影响所观察决策的各项参数获得定量层面的洞见。通过这种方式，研究者不仅能更好地理解对手如何决策，还可利用推断出的信息来改进对未来对手决策的预测。

第二章回顾了与基于理论的推断技术相关的文献，这些技术用于得出相关推论。本章第一部分重点探讨可用于模拟对手决策倾向的各种行为模型。本章第二部分概述了可用于参数化行为模型的多种推断技术及其局限性。某些推断方法仅能支持针对有限决策参数的推断，而其他方法则更具稳健性。第二章的最后一部分详细阐述了本文所采用的贝叶斯方法的理论基础。第三章明确了生成实例数据所选定的方法、所考察的博弈结构以及所执行的推断流程。第四章展示并讨论了各种推断方法的定性与定量测试结果。最后，第五章总结了本研究的贡献，并从抽象和应用两个层面提出了后续研究方向的建议。

需重点指出当前方法所存在的局限性，这也正是本研究的出发点。首要关注的是，能否仅依据观察到的行动和主题专家输入，推断出对手如何形成其策略及行动偏好。对抗性建模有助于洞察对手的行动空间及其行动偏好（Nashed 和 Zilberstein, 2022），但现有文献较少阐明对手如何习得其行动偏好。博弈论，特别是行为博弈论，能够揭示对手对结果的偏好及其学习机制，但这些模型未能提供关于对抗性学习的稳健不确定性度量。因此，现有模型与方法仅部分解决了对抗性预测的一到两个方面，一种完全综合的技术尚难获得，或至少未见完善记载。在此背景下，本研究针对一组相关的、非保密性的实例，探讨了最具前景的技术路径。