多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

在自动化战场上，强大且适应性强的感知能力对于确保军事态势感知系统的有效性和可靠性至关重要。本文提出了一种多模态多智能体AI系统，以增强军事态势感知能力，并与单智能体方法进行比较。为描述战场的复杂性和动态性，本研究新提出了一种修订版混淆矩阵，并基于此矩阵开发了三个案例场景。这三个案例包括冲突信息、军事诱饵和军事伪装。在案例研究部分，使用多模态数据对单智能体与多智能体系统进行了建模和测试。结果表明，复杂的对抗环境会影响人工智能智能体系统的性能。然而，即使使用相同的大型语言模型，多智能体系统的成功率仍高于单智能体系统（在军事诱饵案例中分别为74.5%和2.7%）。主要原因是多智能体系统允许智能体间交互，并具有更简化的任务结构，这可以带来更可靠、更稳健的决策。

在自动化战场上，几乎实时收集和处理海量异构数据，以实现快速有效的指挥控制。自动化战场首要且最关键的一步是准确感知作战环境。这需要整合来自传感器、无人机、作战人员及其他武器平台等多源数据，以构建连贯、实时的态势图景。准确的态势感知使系统能够区分敌我力量、识别潜在威胁并抓住战术机遇。如果没有可靠的感知层，即使是最先进的算法也会产生有缺陷的决策，可能危及任务成功。因此，强大且适应性强的感知能力对于军事态势感知系统的有效性和可靠性至关重要。

目前存在两种提升军事态势感知的相关范式。第一种是数据融合，它已被研究并审议为整合不同层级数据的标准流程。例如，联合实验室理事会的“JDL”数据融合模型已成为系统整合多源数据的范式。JDL模型最初提出了一种结构化方法来研究数据融合，包括目标细化、态势评估、威胁评估和过程精炼。

随着计算机视觉和机器学习的兴起，场景识别成为另一种范式。其目标是使机器能够理解视觉世界。场景识别不仅局限于检测和定位物体，还考虑不同背景下物体间的语义关系。虽然传统场景识别主要采用单模态方法，但近期已有一些尝试将其能力扩展到其他与场景相关的信息，如音频和文本数据。

在这两种范式下，战场自动理解已取得显著进展。然而，先前的方法通常侧重于基于局部信息进行分类。从军事决策中流行的“OODA循环”视角出发，本研究旨在将当前对“观察”的关注扩展到“判断”，并最终在复杂战场环境中链接到“决策”。此外，敌方或对抗性活动可能导致收集到有偏数据，进而引发错误的“判断”和“决策”。一种可能的解决方案是利用智能化人工智能体。然而，单智能体系统在处理战场多源数据时可能存在不足。另一个挑战是如何表征复杂的对抗环境。如果环境过于复杂而难以控制，将难以捕捉人工智能体的影响效果。

本研究提出并测试了一种多模态多智能体人工智能系统，旨在提升军事态势感知能力，并与单智能体人工智能系统进行比较。为描述战场的复杂性和动态性，新提出了一种修订版混淆矩阵，并基于此矩阵开发了三个案例场景。这是在军事领域使用多模态数据比较单智能体与多智能体人工智能系统的初步尝试。此外，案例研究将揭示复杂对抗环境如何影响人工智能体系统性能，并提供智能体交互的洞见。

本文结构安排如下：第二节回顾军事领域的态势感知与场景识别人工智能体。第三节概述了所提出的框架及修订版混淆矩阵。第四节使用多模态数据对单智能体与多智能体系统进行案例研究。最后为结论部分。

提出的框架

本研究提出一种多模态多智能体人工智能系统以提升军事态势感知能力。图1展示了战场可能面临的抽象环境及“OODA循环”决策周期。为描述战场的复杂性和动态性，提出了修订版混淆矩阵，从“OODA循环”和态势感知的角度看，该矩阵代表了“观察”或“感知”阶段。

在“观察”阶段，修订版混淆矩阵是本研究的核心部分。传统上，混淆矩阵通过对比真实情况与模型感知来测试所建模型的准确性。矩阵的每列代表实际类别或真实情况的实例，每行代表预测类别或感知的实例，矩阵对角线表示正确检测的实例。

修订版混淆矩阵表征了存在对抗和不确定性的环境复杂性。本研究将其分为三类，它们不同于原始混淆矩阵。第一类是信息不确定性。当从各种来源收集信息时，由于天气、认知负担、设备故障等因素，可能出现错误或冲突信息。第二类是假阳性增强，代表实际为负类实例，但误导感知为正类实例。例如军事假目标和诱饵，它们是虚假的军事武器装备，伪装成合法目标，迫使敌方浪费弹药并提前暴露意图。第三类是假阴性增强，代表实际为正类实例，但误导感知为负类实例。例如军事伪装，通过运用色彩和材料来保护装备和人员，同时也能为观察和突袭创造机会。当这三类情况混合时，环境复杂性将显著增加。

图1还展示了人工智能体与人类参与的“判断-决策”阶段。该阶段基于“观察”阶段的信息评估环境，并决定行动方案，进而导向“行动”阶段。

为通过人工智能体增强决策周期，提出了如图2所示的多模态多智能体人工智能系统。当从战场收集多模态数据时，多智能体系统利用一组人工智能体协同工作，而单智能体系统则由单一智能体处理所有必要任务。本研究通过大型语言模型实现这些人工智能体。

近来，关于多智能体系统优势的讨论逐渐增多。郭等人简要提出，多智能体系统可通过多个自主智能体的协作处理更动态复杂的任务。与单智能体系统不同，多智能体系统允许智能体间交互，采用多样化的智能体角色配置，从而实现集体决策过程。多智能体系统的预期优势在于更可靠和更具成本效益。尽管已有一些验证多智能体系统相对于单智能体系统优势的尝试，但在军事等复杂决策领域仍需更多研究。

在图2中，多智能体系统可采用多种结构。本研究采用郭等人提出的四种结构中的三种通信结构，将多智能体系统结构分为分层式、分散式和集中式。分层结构形成智能体间的层级关系。分散式结构支持点对点组网，而集中式结构则存在一个中心智能体与其他智能体交互。实际多智能体系统结构可以是这三种基本结构的混合体。

为构建具有特定结构的人工智能体团队，已有多种编程平台可用，如“LangChain”、“CrewAI”、“AutoGen”、“AutoGPT”等。这些大型语言模型框架提供多种工具和抽象层，用于构建基于大型语言模型的应用程序。完成图2中“判断-决策”阶段后，单智能体或多智能体系统将生成响应或建议，随后由人类操作员进行最终决策并行动。