基于博弈论的陆军人机协同（长文报告）

摘要

人机协同（HMT）是全球军队现代化计划的核心。陆军采用机器实现人机协同的一个关键挑战在于，确保机器能够同时与队友和指挥官进行合作与协作互动，并与对手进行非合作与竞争性互动。大多数现有的机器技术和人工智能（AI）系统都基于单智能体决策范式，不适合处理这种混合互动。而"严肃"或数学意义上的博弈论，因其明确关注交互智能体之间的决策问题，完全有能力为解决这一挑战提供概念、数学和算法基础。本文介绍了博弈论及其在构建陆军人机协同框架概念中的应用。此类博弈论框架为实现陆军有效人机协同所需的技术、训练和条令开发，提供了原则性基础。

引言

机器在现代战场上正日益扮演重要角色。[1] 例如，在过去三十年的巴尔干、阿富汗、伊拉克、叙利亚和乌克兰等冲突中，无人驾驶航空器（UAV）已被用于多种任务。其角色已从情报、监视和侦察，扩展到利用自主目标识别、跟踪和寻的来投送弹药。[2] 同样，无人驾驶地面车辆（UGV）的血统可追溯至第一次世界大战初期，并在持续的2022年俄乌战争中走向成熟。俄罗斯和乌克兰现在都将UGV作为前线及支援资产进行部署，执行从伤员后送与补给到布雷与扫雷等多种任务。[3]

尽管UAV和UGV等机器对军队的重要性日益增长，但其巨大的商业潜力导致其大部分进步由工业界和学术界驱动。[4] 因此，许多旨在产生不对称军事优势的机器很可能首先出现在工业界和学术界，然后才被军队采用。[5] 这种采用途径带来了相关挑战，即如何确保新机器（及其相关技术）满足军事用户的需求和要求。例如，私营部门的机器最初可能被构想和开发为独立的个体系统，缺乏与人类及其他机器（无论是友方还是敌方）的稳健接口。然而，其有效的军事应用将涉及将其作为人机团队的成员（可能具有控制功能）进行部署，接受人类指挥，并与对手进行竞争和对抗。[6]

陆军采用机器实现人机协同（HMT）的一个关键挑战在于，确保机器能够与队友和指挥官进行合作与协作互动，并与对手进行非合作与竞争性互动。[7] 这一挑战贯穿技术采购与开发、训练和条令开发，因为它将涉及确保机器（及其团队）能够以符合澳大利亚国防军（ADF）条令的方式理解和执行实时即时决策。[8] 在现有条令框架内，这种能力意味着确保机器能够对态势要素形成实时评估，使其能够（在行使控制权时为其自身及其队友）制定、评估和选择行动方案，以在对手存在的情况下实现指挥意图。[9]

大多数现有的人工智能（AI）系统不适合为机器配备人机协同所需的即时决策能力，因为它们植根于单智能体在孤立环境中（无队友、对手或指挥官）进行决策的范式。[10] 在单智能体范式中，非机器自身行动直接导致的效应在决策过程中被（隐含地）视为自然产物，这引入了重大脆弱性。[11] 例如，若机器将对手位置的变化归因于偶然，则将无法识别和应对其行动方案的变化。即使是近期备受赞誉的、确实解决多智能体决策问题（如国际象棋、围棋和扑克）的AI系统，仍然基于简化的范式，即假设与对手的互动纯粹是竞争性的，与队友的协作和沟通则不存在或高度结构化。[12]

本文引入"严肃"或数学意义上的博弈论，以构建陆军人机协同框架的概念。该概念化框架：

• 明确考虑与队友、对手和指挥官的互动

• 与ADF关于即时决策的条令保持一致

• 其关键步骤与近期基础技术发展相契合，使得能够早期检验博弈论人机协同的可处理性。

因此，这样一个框架一旦完全实现，将为设计、分析和模拟团队动态，以及开发实现陆军有效人机协同所需的机器技术和人员训练，提供概念、数学、算法和计算基础。尽管博弈论人机协同框架已开始出现在文献中，但目前尚无框架明确考虑与ADF条令的映射关系或确定其实现技术。[13]

本文的核心论点是，陆军实现有效人机协同将需要开发超越当前主导AI的单智能体决策范式的新机器技术、训练以及可能的条令。博弈论因其作为研究交互智能体间决策问题的本质，完全有能力为此类发展提供概念（以及数学或算法）基础。特别是，目前有可能概念化一个与ADF即时决策条令相一致的博弈论人机协同框架，该框架有助于突显未来需要重大研究、开发和训练的领域。

本文首先概述现代军队发展人机协同的动机，并审视机器从受监督的工具转变为自主队友所需的条件。接着，简要介绍博弈论，将其作为研究智能体（人或机器）在混合合作与竞争下决策的原则性方法。在此基础上，文章概念化了一个围绕ADF即时决策条令构建的博弈论人机协同框架，详细阐述了通过评估进行观察与判断，以及通过构建和求解博弈进行决策与行动。最后，给出结论，概述为在实践中完全实现博弈论人机协同框架和实施所需进行的未来研究、开发、保证和训练工作。

为何需要人机协同？

人机协同已成为运用机器于军事用途的主要手段，因为它旨在利用人类和机器双方的优势。[14] 人机协同的广泛目标是利用莫拉维克悖论，该悖论是一个经验观察，即许多对人类困难的任务对机器而言很容易，反之亦然。[15] 成功利用莫拉维克悖论以产生军事优势的潜在效益，最近通过2022年俄乌战争中第一人称视角（FPV）无人机的使用得到了印证。[16] FPV无人机的核心在于，利用了当前人类在智能、推理和引导方面的优势，以及机器在可消耗性、机动性、速度和日益自主的目标寻的方面的优势。

人机协同现已成为英国、美国和加拿大采用机器人与自主系统进行防御计划的一部分。[17] 澳大利亚国防军（ADF）的所有三个军种——陆军、海军和空军——都寻求人机协同。[18] 对陆军而言，人机协同提供了一种在射程、杀伤力、部队防护和决策优势方面产生规模化效应的手段，而无需同等规模的人力增长。[19] 在战场之外，人机协同将通过为后勤（包括仓储、运输、工程和维护）做出贡献，为ADF创造优势。[20]

预计未能实施有效人机协同的军队将在未来冲突中处于相当大的劣势，包括使其容易遭受重大（人员）伤亡。[21] 近期的冲突为此预测提供了证据。例如，据估计，ISIS在2016-2017年摩苏尔战役中部署配备手榴弹的简易遥控四旋翼无人机，使伊拉克政府军的损耗率增加了高达23%。[22] 同样，俄罗斯军队在2022年俄乌战争中引入巡飞弹，与乌克兰伤亡人数的显著激增相对应。[23] 在这两种情况下，与引入新技术和战术相关的伤亡率上升一直持续到引入反制战术和技术为止。

技术优势的程度和持续时间取决于对手学习、改进和实施创新的能力。[24] 因此，由于所需机器的技术复杂性以及对人类士兵和指挥官的必要训练，有效的人机协同预计将产生显著且持久的不对称优势。[25] 通过创造和理解有效人机协同所需的技术和条令所产生的优势，很可能延伸至反制人机协同领域。事实上，历史上存在多个例子，其中采用一项新的复杂技术也为反制该技术的最初方法提供了基础（并主导了这些方法）。例如，从第一次世界大战开始的半个世纪里，坦克与反坦克作战的交错发展，最终形成了美国20世纪60年代的条令，其本质是宣称"最好的反坦克武器是坦克"。[26] 一个更近期的例子是，在持续的2022年俄乌战争中，由于成本、可扩展性和效能与威胁相匹配，拦截无人机作为对抗大规模进攻性无人机的手段而出现。[27]

有效人机协同需要什么？

对陆军而言，人机协同涉及将机器从密切监督的"工具"转变为能够协调协作以实现指挥意图的自主"队友"。[28] 它不同于过去整合人与机器的方法，后者是与机器共享先前仅由人类执行的任务。[29] 例如，火炮等机器在陆军中作为"工具"有着悠久的使用历史。然而，人类始终通过收集和处理信息（即形成评估）以及决定行动方案来控制它们。将机器转变为"队友"将需要使其能够收集和处理信息以形成自己的评估，决定行动方案，并独立或作为团队一部分行动以实现指挥意图。[30] 这也将需要授权某些机器行使控制权，但需服从指挥的任务指派（这仍然是一项根本上的人类职能）。[31]

控制涉及"协调部队以实现指挥确定的成果"，需要客观、经验性和及时的态势理解，以及为队友制定行动方案的能力。[32] 因此，被授权行使控制权的机器必须能够对与自身及其团队相关的态势要素形成实时评估，并为自身及其团队制定行动方案。[33] 这些评估对应于现有ADF条令中的（持续）参谋评估，包括有形和无形的态势要素，例如友军和对手的物理配置（如位置），以及其意图、目标、能力、优势、训练、局限、脆弱性、士气、领导力和态势感知（例如，对其他友方和敌方队友及指挥官所持评估的高阶或嵌套评估）。[34] 在使用评估来制定、评估和选择行动方案时，机器必须明确考虑潜在对手的脆弱性以及自身对对手的脆弱性，以符合ADF条令。[35]

由于并非所有机器都将行使控制权，因此并非所有机器都严格需要所有态势要素的评估。同样，并非所有机器都严格需要具备为其队友制定、评估和选择行动方案的能力。相反，许多机器可能只需要部分态势要素的评估，并且可能只需要确定自身的行动方案。然而，确定哪些机器需要哪些评估，以及哪些机器最适合确定哪些行动方案，构成了一个巨大的挑战。至少，所有机器可能需要能够形成使其能够确定自身行动方案的态势要素评估。在确定自身行动方案时，它们最好还能与队友、指挥官和对手的意图、目标、能力、优势、训练、局限、脆弱性、士气和态势感知保持一致或加以利用。[36] 例如，虽然巡飞弹可能严格来说只需要评估对手的位置和外观以攻击目标，但如果它们具备足够的态势感知和决策能力来优先攻击对其最脆弱的智能体，其效能显然会得到提升。

开发机器实现有效人机协同所需的态势感知和决策能力，对现有技术而言是一个相当大的挑战。[37] 事实证明，即使没有合作或竞争性决策，开发更简单的态势感知能力也很困难。事实上，几起航空事故被直接归因于自动驾驶仪对飞机物理状态（如姿态）形成了错误评估。[38] 同样，几起涉及配备先进感知和自动驾驶系统的汽车的重大事故，是由于感知系统遗漏了重要的环境线索并形成了有缺陷的评估，导致态势感知丧失以及汽车控制系统选择了不适当的行动方案。[39]

因此，公开文献中认识到人机协同需要新技术。[40] 然而，近期的开发工作仍然狭隘地聚焦于特定能力的某些技术。例如，近期大量工作致力于开发实现共享心智模型（即同步对态势要素的评估）的技术，以便机器能够准确预测和预判队友的行动，从而先发制人地提供帮助。[41] 同样，大量努力被导向使队友目标一致的技术，以避免目标冲突及相关团队绩效下降。[42] 使机器能够利用其评估来制定、评估和决定适当行动方案的技术，相比之下受到的关注较少。大多数现有的AI技术由于基于单智能体决策而不适用，并且无法使机器以可解释和透明的方式决定行动方案。[43] 它们也不能使机器制定行动方案以获取信息或解决不确定性，例如通过移动到有利位置或与队友或指挥官沟通。[44]

博弈论为开发人机协同所需的机器技术（以及对人类队友和指挥官的训练）——从实现共享心智模型和目标对齐，到以可解释和透明的方式制定行动方案——提供了一个有前景的基础。[45] 博弈论的前景在于它提供了框架（以概念、数学或算法模型的形式），这些框架考虑了战术或作战环境中所有智能体的个体目标、评估和决策过程。[46] 这些框架为开发博弈论技术提供了基础，使机器能够制定、评估和决定自身的行动方案，同时在必要时考虑其他智能体（无论是友方还是敌方）的影响。[47] 与单智能体决策范式相比，博弈论的作用和重要性将在下一节探讨，并有助于后续关于人机协同博弈论框架的讨论。

博弈论简要入门

博弈论是研究多个交互智能体之间决策的学科，每个智能体可能具有不同的目标或目的、能力、局限、意图和态势感知。[48] 它与更广为人知的优化概念不同，在于在确定智能体的"最佳"决策或行动时，明确考虑多个（其他）智能体及其决策对结果的影响。[49] 相比之下，优化涉及根据智能体自身的目标或目的选择其"最佳"决策或行动，而不考虑其他智能体及其决策的影响。当智能体寻求确定一个行动顺序或行动方案（其中行动顺序很重要）时，优化分支为最优控制（例如，单智能体强化学习），而博弈论分支为动态（或微分）博弈论（例如，多智能体强化学习）。决策范式总结于表1。

表1：决策范式总结

	单智能体	多智能体
单一决策或行动	优化	静态博弈论
决策序列或行动方案	最优控制（例如，强化学习）	动态或微分博弈论（例如，多智能体强化学习）

优化和最优控制将任何非智能体自身行动直接导致的效应视为自然产物。[50] 当解决结果与其他智能体的决策或行动无关的问题时，例如"到达目标的最短路径是什么？"，这种考虑是合适的。然而，当其他人的决策和行动影响何为"最佳"时，例如在对手可能使某些路径不安全的情况下确定"到达目标的最安全路径是什么？"，它们就不合适了。在存在多个智能体的情况下使用优化或最优控制，构成了犯鲁滨逊·克鲁索谬误，即错误地忽视了其他智能体的有意决策、行动和影响，并将其归因于自然的随机性。[51]

尽管名为"博弈"论，但它并非仅关注琐事、娱乐或兵棋推演——它可用于为此类情况制定策略，但更广泛地说，它是关于多个交互智能体之间竞争、合作和/或冲突的数学（或算法）研究。[52] 博弈论语境下的"博弈"是指多个智能体相互作用，旨在实现各自个体或团队目标（例如，最大化奖励或最小化成本）的情境。[53] 这些个体或团队目标可能与博弈中其他智能体的目标相冲突，在极端情况下，可能仅仅对应于试图确保其他智能体获得最坏结果。与优化相比，博弈论中"最佳"或"最差"的概念是模糊的，因为智能体及其目标之间的合作与冲突引入了（隐含或明确的）权衡，即在选择决策和行动时可以优化哪些个体或组合目标。[54]

一个说明博弈论与优化之间差异的经典例子是囚徒困境博弈。[55] 在囚徒困境博弈中，两名囚徒各自被给予选择保持沉默或作证。如果两名囚徒都选择保持沉默，他们将受到轻判（例如，一年监禁）。如果一名囚徒选择保持沉默而另一名选择作证，那么沉默的囚徒将受到重判（例如，三年监禁），而作证的囚徒将立即获释，无需服刑。如果两名囚徒都作证，他们将受到中等判决（例如，两年监禁）。囚徒必须同时做出选择，且不能合作（即不能沟通或知道对方的选择，也不关心对方的刑期）。

如果囚徒合作，他们的最佳选择是保持沉默并仅受轻判，这对应于一种称为帕累托最优解的博弈论解。更一般地说，当由于智能体合作优化同一目标而使博弈简化为（单智能体）优化问题时，帕累托最优就是博弈的解。然而，当囚徒无法强制执行或确保合作时，困境就出现了。如果一名囚徒保持沉默，另一名囚徒就有动机作证，这意味着沉默的囚徒不再有动机保持沉默。这最终导致两名囚徒都认为作证优于保持沉默。换句话说，选择作证的囚徒永远没有动机单方面改变主意保持沉默，而选择保持沉默的囚徒总是有动机单方面改变主意作证；因此，两名囚徒都选择作证。这一结果称为纳什均衡，之所以是均衡，是因为两名囚徒都没有动机单方面偏离作证。

纳什均衡被认为是智能体同时行动且不明确合作或协调的博弈的"最佳"或"最优"解。正如囚徒困境所示，纳什均衡不一定对应于帕累托最优解。与帕累托最优解相比，智能体在纳什均衡下通常会承担额外的成本（或效率损失）。这种额外成本称为无政府状态代价。因此，囚徒困境凸显了调整（或设计）智能体目标和目的的重要性，以使由此产生的无政府状态代价较小（或有界），并且即使在无法明确协调或协作的情况下，队友也不会得到糟糕的结果。这些考虑对于在中断、断开连接、间歇性和低带宽环境中实施有效的人机协同尤其相关。在确定如何整合从工业界和学术界采购的独立机器和技术时，这些考虑也很重要，以避免产生导致巨大无政府状态代价的协同互动。

囚徒困境是一种静态博弈，因为智能体（即囚徒）只互动一次。当多个交互智能体必须选择一系列行动且行动顺序很重要时（即智能体选择行动方案时），博弈论分支为动态博弈论。因此，动态博弈是指多个智能体随时间重复互动，旨在最大化其个体或团队目标和奖励，同时受到智能体状态及其环境状态（随时间）演化所施加的约束和限制的情境。[56] 正是以这种动态形式，博弈论可能对军事事务中的机器产生了最大影响。[57]

动态（或微分）博弈论最初由鲁弗斯·艾萨克斯在20世纪50年代提出，用于确定导弹对抗采用最优规避机动飞机的最优制导机动。[58] 随后，它被用于制定美国海军关于水面舰艇应如何机动以在潜艇寻求在最短时间内逃脱监视的情况下，将其置于监视下最长时间的条令。[59] 在这些动态博弈中，智能体（即载具）选择其行动方案时，完全了解所有平台（不可改变的）能力和局限，包括其最大速度和转弯速率，以及其态势的物理方面（例如，其随时间变化的动态物理状态，包括位置和航向）。智能体不合作且目标冲突，使得由此产生的"最佳"行动方案（即机动或轨迹）成为纳什均衡。与静态博弈一样，在动态博弈中，任何智能体单方面偏离作为纳什均衡的行动方案，都会导致其获得更差的结果。[60] 例如，在潜艇试图逃脱水面舰艇监视的情况下，如果潜艇通过执行不同的机动（或遵循不同的轨迹）偏离纳什均衡，水面舰艇将能够将其置于监视下更长时间。相反，如果追击的水面舰艇偏离纳什均衡，逃避的潜艇将能够更快逃脱。

文献中现在有无数种类型和数量各异的追逃和监视-逃脱动态博弈。[61] 例如，通过修改水面舰艇与潜艇之间监视-逃脱动态博弈中智能体的平台动力学，最近提出并解决了一个更贴近四旋翼无人机监视地面车辆的动态博弈。[62] 事实证明，此类动态博弈特别适合为单一任务自主性开发（最优和鲁棒的）机器技术。然而，它们在开发人机协同技术方面的更广泛应用仍然有限，尤其是与（单智能体）优化、最优控制和强化学习的广泛使用相比。

或许令人惊讶的是，博弈论在开发备受赞誉的AI系统（如用于玩棋盘游戏和电脑游戏如国际象棋、围棋、Dota 2和星际争霸II的OpenAI Five、AlphaStar和MuZero）中只扮演了次要角色。[63] 博弈论在后续AI系统（如用于扑克的Pluribus、用于外交的CICERO，以及根据各种国防高级研究计划局（DARPA）挑战和学术-工业界挑战开发的系统）的开发中发挥了更重要的作用。[64] 然而，这些"游戏"是简化的，因为它们按照固定规则周期性演化，玩家数量已知且可能行动差异不大，并便于队友之间轻松沟通。因此，在此类"游戏"中开发AI系统，在将其应用于现实世界任务（如人机协同）时，引入了犯游戏谬误的潜在风险，即简化可能过于剧烈，以至于任何得出的见解都可能有缺陷或具有误导性。[65]

此外，在这些著名AI系统所解决的"博弈"中，智能体间的互动要么纯粹是竞争性的，要么纯粹是合作性的。在智能体必须与混合了竞争与合作方的智能体进行协商的情境下（如人机协同中），这对用于训练这些著名AI系统的现有最先进算法方法构成了重大的未解挑战。[66] 例如，存在相对简单但技术性的反例表明，流行的多智能体强化学习技术（即自我博弈）无法在涉及冲突与合作的博弈中找到最优（纳什均衡）解。[67] 这些缺陷会导致AI系统的不足，从而可能被对手所利用。[68]

尽管现有AI系统存在局限，但在应用数学、工程学和经济学领域，存在一系列更复杂的博弈论技术和见解。事实上，博弈论从根本上概括了纯粹合作或纯粹竞争的互动，涵盖了混合的指挥-隶属以及合作-对抗互动。[69] 这种普遍性为在开发有效人机协同中利用博弈论开辟了重大机遇。

基于博弈论的人机协同框架已开始出现在公开文献中。[70] 这些框架采用概念性（或数学、算法、计算）模型的形式，其中团队中所有人类和机器都被视为（即建模或抽象为）具有各自个体特征的智能体，这些特征包括感知传感器或系统、评估、目标、意图、能力、经验以及（认知或计算的）决策和行动过程。它们的博弈论性质在于，智能体被认为会根据其对其他智能体的了解或观察，基于能使其最好地实现个体目标的因素来形成评估和做出决策。在这些框架中隐含的是，如果符合其自身（或其团队）的利益，智能体可能会选择同步其数据、评估、目标、意图、决策和行动。

博弈论人机协同框架有两个关键目的。首先，它们为设计和分析团队动态与行为提供了概念性（并且，通过进一步开发，可成为数学、算法和计算性）基础，使得能够通过分析、模拟和兵棋推演来提出和解决关于人机协同的"假设性"问题。其次，它们通过提供算法和计算模型，为开发人机协同所需的机器技术奠定了基础；机器可以利用这些模型，基于对队友、对手和指挥官的态势与个体方面的评估，通过预测和预判其行为来制定、评估和选择行动方案。现有的人机协同博弈论框架在开发时，并未联合考虑对手与层级化（人类）指挥、（不完美的）态势感知、与条令的对齐以及技术实现。然而，考虑到这些方面对陆军的重要性，鉴于底层博弈论的普遍性，对这些方面的考量似乎是可行的。[71]

陆军中人机协同的博弈论框架概念化

一个针对寻求欺骗和竞争的对手的人机协同博弈论框架，可以在观察-判断-决策-行动（OODA）循环的表述中进行概念化，该循环是现有ADF条令中即时决策过程（IDMP）的基础。[72] 为了概念化此框架，考虑一组智能体——人或机器——它们可以被分组为团队，并且可能是友方或敌方。每个智能体被认为会（重复地）观察（部分）其他智能体及环境，相对于其他智能体和环境进行自我判断，然后决定并实施行动方案。对机器而言，这个过程可以通过态势感知和决策技术在硬件和软件中精确实现，从而形成开发人机协同机器技术的候选蓝图。对人类而言，这个过程可能仅作为一种抽象或模型，但通过即时决策过程，它很可能与条令和训练保持一致。[73]

每个智能体的OODA循环步骤都涉及博弈论考量，概念化如下：

博弈论观察与判断

在观察和判断自身时，每个智能体被认为会重复执行以下三个关键步骤：

界定和框定其态势，包括识别相关的态势要素。
对所识别的相关态势要素形成评估。
形成对其他智能体评估（以及它们对评估的评估，依此类推）的高阶评估。

在界定和框定其态势时，每个智能体被认为首先识别其他被观察到的和（潜在的）未被观察到的智能体（队友、友方部队、对手和/或指挥官）。随后，它被认为会为所有智能体（包括其自身）分配一个状态，该状态量化了其有形的和无形的属性和方面，例如其目标、意图、期望的最终状态、优势、能力、局限、训练、士气和领导力。因此，在时间t，从第i个智能体的视角看，第j个智能体的状态是一个用$s_t(i, j)$表示的数学对象，其中$s_t(i, i)$是它分配给自身的状态。类似地，每个智能体为其环境分配一个状态（例如，无生命物体的位置），从第i个智能体的视角看，环境状态为$s_{e,t}(i)$。智能体可以采用动态模型来描述状态的时间演化（例如，机器的计算和基于物理的模型，或人类的认知行为与决策模型）。[74]

随后，每个智能体被认为会利用其感知和/或通信系统的观测数据，维持对所有智能体及环境状态的评估，以及对它们随时间可能如何演变的评估。这些评估可以是确定性的（即可能状态的集合）或概率性的（即分配给不同可能状态的概率）。因此，第i个智能体在时间$\tau$维持的关于所有智能体及其环境状态的评估，是一个用$b_{i,\tau}(s_{t}(i,1), s_{t}(i,2), ..., s_{t}(i,N), s_{e,t}(i))$表示的集合或概率分布，其中N是智能体总数（此评估也称为该智能体的信念）。对于机器（或使用大脑的贝叶斯模型），物理和有形方面的评估可以包括那些通过状态估计和传感器融合算法（如贝叶斯滤波器和平滑器，例如卡尔曼滤波器或粒子滤波器）计算得出的结果。[75] 对更抽象方面（如智能体目标和意图）的评估，可以包括那些通过定制算法计算得出的结果，例如来自逆动态博弈论的算法，这些算法关注从对智能体决策和行动的观察中计算其目标。[76]

为了支持博弈论决策与行动，智能体还必须维持高阶评估——即对评估的评估，对评估的评估的评估，依此类推——以保持对其他智能体知道什么，以及其他智能体知道别人知道什么等等的了解。在某种程度上，这些高阶评估对于创造欺骗机会和防御欺骗是必要的。例如，如果一个智能体知道对手知道它对其环境中的危险或障碍物一无所知，或者它仅部分了解对手的能力，那么它可能需要更谨慎地行动。同样，如果其队友和指挥官知道他们不准确了解其环境状态，一个智能体可能会受益。近期的逆滤波算法已经证明了从对评估本身或由这些评估产生的智能体行动的观察中，计算评估的评估是可行的。[77] 这些逆滤波器与现有的（前向）滤波器和贝叶斯（状态）估计算法惊人地相似，这表明了将其扩展到计算高阶评估的自然途径。

存在大量且不断增长的文献，涉及使自主智能体能够对其他智能体进行建模的技术和方法。这些文献为博弈论观察与判断三个关键步骤的实际实现提供了见解，包括如何选择重要的状态以及如何计算其评估。[78] 因此，除了高阶评估外，博弈论观察与判断的三个关键步骤很可能（至少以近似形式）是可行的，可以在机器上使用适度的机载或边缘计算架构实现。核心挑战在于计算高阶评估，因为理论上需要无限多的高阶评估（即对评估的评估无限进行）。然而，最近的研究表明，高阶评估可能在决策中扮演着递减的角色（即超过某个阶数后，高阶评估可能不再影响行动选择）。这些研究提出了重要的实际可能性，即可能只需要计算有限数量的高阶评估，而不会引入任何（显著的）脆弱性。[79] 因此，博弈论观察与判断目前似乎可能只会对机器实际硬件和复杂程度施加适度的额外要求。

博弈论决策与行动

在决定和采取行动方案时，每个智能体被认为会重复执行以下三个关键步骤：

利用其对其他智能体和环境的评估，构建一个部分和/或不完全信息博弈。
求解其构建的博弈，以制定和评估潜在的行动方案。
采取行动，实施最能实现其目标的行动方案。

在使用其评估构建博弈时，每个智能体被隐式地认为是在使用部分和/或不完全信息来决定其行动方案。具有部分和/或不完全信息的博弈已被充分研究，原则上，机器（或受过训练的人类）可以从数学或算法上求解。其求解（与所有博弈一样）具体涉及识别可能的均衡（纳什均衡或其他），然后根据其自身目标和目的或在帕累托最优性等次要准则下，选择"最佳"的均衡。帕累托最优性的扩展可以仅在团队或友方部队内计算（例如，针对指挥意图）。

通过求解基于评估而非基于对态势要素的完全了解而制定的博弈来选择行动，隐含地考虑了智能体通过沟通或实施侦察来操纵自身评估的可能性，或通过虚张声势和欺骗来操纵对手评估的可能性。具体来说，已知用可能不完美的评估形成的部分和/或不完全信息博弈的解，所包含的行动方案中，某些行动的目的可能只是为了解决或增加不确定性，而不是操纵实际的底层态势。这种现象在随机最优控制理论的语言中被称为双重控制效应，承认了行动可以服务于双重目的：既改变智能体和环境的底层状态，也操纵与之相关的不确定性（或评估）。[80]

双重控制效应意味着，通过选择那些求解基于评估制定的博弈得出的行动方案，智能体将自然得出能够改善自身评估、并削弱对手评估（以达到实现目标所需程度）的行动方案。例如，一个智能体的最优行动方案可能包括移动到有利位置、主动寻找地标或与队友或友方部队沟通等行动。反之，一个智能体的最优行动方案也可能包括旨在欺骗、误导对手或对对手保持隐蔽的行动（反之亦然）。

通过求解博弈的过程选择行动方案，每个智能体隐含地考虑了所有（已知或感知到的）风险和机会。这种考量延伸至审视其自身的行动方案可能如何影响或支持队友的行动方案，利用对手行动方案中的脆弱性，并防范对手可能采用的潜在行动方案。这种决定行动方案的博弈论过程，类似于现有ADF决策条令即时决策过程中的任务分析和行动方案制定考量。[81] 然而，与将分析局限于对手最可能和最危险的行动方案不同，原则上，这个博弈论过程需要对对手、队友和其他友方部队所有可能的行动方案进行计算。

在求解博弈时，出于计算可处理性、信任和保证等实际原因，可能有必要（且合理）将考量限制在有限的行动和行动方案集合内，包括那些最可能和最危险的方案。行动和行动方案集合已经渗透到关于个体智能体乃至整个团队人机协同的文献中，尽管并非是在作为博弈潜在解的语境下。[82] 有限集合在降低求解博弈的计算复杂性方面的用处是明显的，因为它们将行动空间缩减到有限维度。同样，出于信任和保证的目的，它们也可能有用，因为通过将行动空间缩减到有限维度，它们使智能体行为更具可预测性。[83] 出于类似原因，考量也可能仅限于具有有限理性的智能体所能概念化的行动方案；例如，对行动方案的考量可能仅限于那些容易被评估或理解，适用于考虑高阶评估和后果能力受限的智能体的方案。

智能体执行控制行动（或人类智能体作为指挥官行动）的可能性，也通过基于评估求解博弈来选择行动的方式被隐式地编码。具体来说，智能体可以维持的关于其他（友方）智能体的一种态势状态是，其是否为指挥官或控制者。然后可以在确定如何在博弈求解中对待每个智能体时，考虑其角色。例如，在求解智能体的博弈时，可以优先考虑对指挥官或控制者的目标或意图的评估。如果一个智能体对指挥官或控制者的目标或意图特别不确定，双重控制效应意味着其最佳行动方案本质上可能是采取行动来解决这种不确定性，例如通过沟通或移动以观察其指挥官或控制者。类似地，如果一个智能体正在行使控制（或指挥）权，其最佳行动方案本质上可能是直接向他人传达或广播其评估和行动。

框架总结、变体与扩展

总之，可以概念化一个与现有ADF条令中即时决策过程的OODA循环表述相一致的、基于博弈论的人机协同框架。在该框架中，每个智能体（人或机器）被认为可重复地执行博弈论判断与观察以及博弈论决策与行动。

博弈论判断与观察涉及智能体：

界定和框定其态势，包括识别即时决策过程中已有的相关有形和无形态势要素。
形成对所识别相关态势要素的评估，可能通过使用贝叶斯滤波器。
形成对其他智能体评估（及对其评估的评估，依此类推）的高阶评估，可能通过使用近期的逆滤波器。

博弈论决策与行动随后涉及智能体：

利用其对其他智能体和环境的个体评估，构建一个部分和/或不完全信息博弈。
求解其构建的博弈，找出所有感兴趣的均衡（纳什均衡或其他）。
采取行动，实施与最能实现其目标（或指挥意图）的均衡相对应的行动方案。

对陆军而言，重要的是，该框架为联合考虑对手与层级化（人类）指挥；（不完美的）态势感知；与条令的对齐；以及技术实现提供了基础。尽管如此，博弈论框架的范畴仍有扩展和变化的潜力。例如，可以扩展以包括非战斗人员或非结盟智能体。它也可以变体为使用行动-感知-决策-适应（ASDA）循环或用于（人类）决策的Cynefin抽象，而非OODA循环，作为排序或优先处理博弈论观察与判断以及博弈论决策与行动步骤的基础。[84]

更一般地说，概念化的框架强调，要实现有效的人机协同，特别是在所使用的机器要具有高度自主性的情况下，仍然需要进行大量的研究和开发。例如，需要新的基础数学工具和算法来构建智能体评估，并求解以智能体评估定义的部分和/或不完全信息博弈。还需要新的机器技术来实现可扩展的博弈论观察、判断、决策和行动——从界定和开发合适的传感器及传感器套件，到选择适当的计算架构和算法实现，以在可处理性与博弈论性能（或脆弱性）之间取得平衡。

结论

本文认为，在陆军中实现有效的人机协同，需要超越当前主导AI的单智能体决策范式和技术。相反，实现有效的人机协同将需要采用那些明确考虑与队友和指挥官的合作互动，以及与对手的非合作或竞争互动的方法。博弈论作为研究多个智能体（无论是友是敌）间互动的学科，是一个强有力的候选方法。事实上，现在就有可能概念化博弈论人机协同框架，其中机器以一种符合ADF即时决策条令的方式，对意图、不确定性和对抗行为进行推理。

虽然基于博弈论的人机协同框架已出现在公开文献中，但它们只考虑了人与机器之间纯粹的合作互动，或者没有明确考虑与不完美态势感知相关的博弈论问题，例如对评估或高阶评估的需求。此外，现有文献没有讨论博弈论人机协同中的关键步骤如何与ADF条令对齐或实现。因此，概念化的框架为设计和实现人机协同的机器技术及（人类）训练提供了一个起点。随着（数学和技术上的）进一步发展，它也将为分析和模拟人机协同概念提供一种定量手段。还需要大量的未来工作来研究博弈论对人机协同中的信任、伦理、测试、评估、验证和确认等问题的影响。

对陆军而言，鉴于现有框架和技术相对不成熟，基于博弈论的人机协同需要通过一个渐进分阶段的过程来实现。

短期而言，陆军应将博弈论概念和术语与现有的兵棋推演、实验和条令（无论是否涉及人机协同）进行映射和关联，以明确地将博弈论评估和发展为一种用于作战的决策范式。
中期而言，应将博弈论概念和思维应用于为涉及人机协同的、范围狭窄但可重复的任务和使命，开发框架、战术和条令，利用现有的机器技术和士兵训练。这将类似于微分博弈论在美国海军中的采用路径。
长期而言，陆军应寻求明确避免鲁滨逊·克鲁索谬误，确保为人机协同开发的新机器技术、训练和条令从一开始就纳入博弈论考量。

成为VIP会员查看完整内容