多智能体指挥与控制（C2）场景：面向雷达任务的可扩展多智能体协同算法研究 300页

本文研究了多智能体指挥与控制（C2）场景中的挑战，其中自主智能体通过观察其环境、决定实现目标的最佳行动，进而对环境施加影响来完成目标。这些智能体观察其环境最常用的方法是使用雷达。认知雷达领域遵循类似的感知-行动循环，并完成雷达资源管理（RRM）任务。现代C2挑战涉及多个使用雷达的自主智能体，这给这两个领域都带来了独特的挑战。多智能体自主性研究通常未考虑高保真雷达带来的不确定性和复杂性，而雷达任务方法则常常优化单一系统，而非智能体联盟。将雷达任务方法与多智能体系统相结合提出了一个独特挑战，其目标在于最大化协同效用而非单一性能。本研究探讨了C2中的挑战，即智能体面临不确定性增加、资源减少，但能够且应当协同行动的情况。为C2挑战设计了一个包含中等保真度雷达探测仿真的仿真环境。在此环境中，提出了在机器学习和强化学习领域的智能体行动方法，以在资源有限、不确定性增加的情况下有效运行。本研究的创新之处在于利用博弈论和元认知来协调多个智能体，以提高其在雷达探测、航迹确认和最优监视任务中的效用。为满足C2领域的需求，特别关注那些具有可扩展性和模块化特性的方法。

背景：多智能体指挥与控制

二十世纪八十年代初，军事“指挥”的概念随着“控制”内容的加入而扩展。现代技术创造了一个信息更多、且需要在准确性、可靠性之外兼具敏捷性的领域。McCann 和 Pigeau [1] 将“指挥与控制”（C2）总结为“建立共同的意图以实现协调行动”。更具体地说，C2系统旨在收集数据，通过分析这些数据来识别意图（推理），并利用已建立的意图来定义行动（规划）[2]。此外，现代C2常常参考最初由Boyd（1996年）提出的“观察-判断-决策-行动”（OODA）模型，这是一个涵盖C2活动的作战框架和行动指南[3]。虽然雷达系统并非C2的唯一组成部分，但它在观察环境、分析信息和采取相关行动方面起着重要作用。现代基于软件的雷达系统利用自主性和雷达信号处理方法来支持C2。“指挥与控制”（C2）代表了多样化行动在充满不确定性、复杂性且反应时间不断缩短的环境中导航的机制。除了最简单的用例，现代C2行动都利用多个平台来实现战略目标，这使得协同协调的加入对此类行动的成功至关重要。

一百多年来，自主性和雷达信号处理通过使用闭合形式表达式、启发式方法和概率方法，极大地推动了军事、工业和民用领域的发展。从二十世纪六十年代利用“雷达资源管理”（RRM）的传感器管理技术开始，二十世纪九十年代的进展集中在最大化探测、跟踪和分类等多种雷达功能的性能。“恒虚警率”（CFAR）检测器和自适应杂波抑制方面的先进方法进一步增加了RRM的自适应性[4]。这些技术进步在Haykin于2006年提出的“认知雷达”一词中达到顶峰。“认知雷达”的特征在于“感知-行动循环”。其核心特征是一个能够感知环境、具备学习能力并能自适应地确定适当系统响应的系统[5, 6]。

C2领域的目标是协调多种资产以实时达成任务目标。这个听起来简单的目标实际上既复杂又具有挑战性。为使指挥层能做出行动决策，必须从复杂的技术信息（雷达回波信息和情报）中观察、处理和汇总环境信息。对这些信息进行汇总和分析，以评估其对任务的中间影响（航迹和实体信息），最终用于生成供指挥参考的“行动方案”（COA）建议。这个过程必须在短时间内完成，以便行动决策能够对环境产生相关影响。雷达是应对这一挑战所用工具的重要组成部分，在C2行动的成功中扮演着至关重要的角色。有两个因素极大地影响了现代C2行动的难度：互连系统规模的日益扩大以及行动者敏捷性的提高。“无人机”（UAV）的引入增加了环境中的行动者数量，这需要专门的努力和设计来进行协调或实现自主行动。此外，计算速度的进步和“人工智能”（AI）使用量的增加，使得系统能够在比人类响应能力快几个数量级的时间尺度上运行。RRM对这些挑战并不陌生，并且在认知雷达进步和雷达任务执行优化方面有着研究历史。这使得RRM成为可能改进C2的理想应用和探索领域。现有研究文献中提出的大多数RRM方法都假设存在一个可以采取多种行动并完成多项任务的单一雷达平台。C2环境中通常有多个具有不同位置和能力的平台需要协调。这为探索雷达任务的制定和执行提供了有益空间，其目标是优化多个系统的协同性能。

C2和RRM中对协同系统的需求使其自然与“博弈论”（GT）领域相关联。GT是研究用于描述和优化智能体效用或达成某些既定成功的数学和逻辑模型的学科。该领域的一个子集是“协同博弈论”，其专注于优化多个智能体协同工作的效用，而非个体智能体仅最大化其个人效用。这一概念与C2任务和挑战非常契合。在RRM和雷达应用中已有使用GT的先例，包括对“MIMO雷达”系统的关注[7, 8, 9]。同样，GT在自适应干扰[10]、轨迹优化[11]和认知雷达探测[12]等领域也取得了成功。在这些例子中，GT被用来寻找最优策略。在协同GT领域，Deligiannis等人[13]探索了“共识方法”，用于优化波束成形的功率分配；Marden等人[14]则采用“最近邻方法”处理了协同智能体的指数级扩展问题。

自主系统的挑战在控制和认知雷达领域有着历史。“人工智能”和“机器学习”（AI/ML）在雷达中的应用在二十世纪九十年代初被考虑，当时提出了利用数据从环境中学习以驱动感知和资源管理的智能系统概念[15]。Michael Wicks引入了“传感器知情的机器人学”，其重点是集成传感器和传感器网络的能力与平台行动[16]。认知雷达和自主性的这种进展导致了当前AI/ML的爆炸性增长及其在雷达领域的应用。AI/ML领域的成就使其在现代生活的几乎各个方面都成为研究、开发和软件应用的重点。AI/ML利用深度学习架构、“强化学习”（RL）和基于Transformer的生成方法所展现出的卓越性能，使其成为一个强大的工具。AI/ML技术可以为超出启发式和概率方法范畴的问题提供解决方案，并能将复杂系统的协调规模扩大到手动软件实现无法达到的程度。然而，这些深度学习方法大多是难以理解和解释的“黑箱”[17]。模型在数据上训练后，参数值远非可解释，并可能导致过度拟合、习得偏见、幻觉、缺乏可重复性和不可预测行为等不良后果。当前，软件开发人员、AI工程师和研究人员面临的一个挑战是探索AI/ML潜力的同时，应对其在可解释性、可信度、安全性和能力认证方面的新挑战。特别是，RL作为自主性和认知雷达工具的研究探索速度有所加快。将RL和GT结合使用，可同时获得RL灵活学习的优势以及GT提供的策略优化方法。这在文献中已被广泛研究，特别是在“多智能体RL”的背景下[18, 19]。

现代指挥与控制领域提出了一个独特且探索不足的挑战，即使用需要协作的多个自主平台完成雷达任务。随着低资源无人机集群的出现，协调这些平台的C2挑战成为需要新方法来进行任务竞争和协作的场景。本论文探讨了雷达任务执行与多个低资源平台的交集，以及自主协调和执行所需的新方法，同时保持对平台数量增加的可扩展性。为实现此探索，构建了一个包含中等保真度雷达和C2场景的仿真环境，然后提出并测试了新颖的AI/ML、RL和博弈论方法以及传统的RSP（雷达信号处理）方法。（领域和方法概述见图1.1）本工作的主要贡献包括：一种协同RL和传统智能体以确认高机动目标的博弈论方法；一种优化移动平台协同搜索的博弈论效用表示法；以及一个可在多种杂波分布下进行CFAR探测的可扩展元认知检测器。

图1.1：领域与方法概述

贡献概述

为展示适用于自主系统的、可扩展的协同多智能体方法的有效性，针对C2场景中的多种雷达任务，设计、实现并测试了多种技术。本论文的工作包含一个基础仿真和三个研究领域，每个领域都有其自身的贡献。

1 C2场景与雷达仿真

第一个领域并非贡献，而是为促进后续两个研究领域的测试和验证贡献所必需的一个仿真。为了测试自主和协同方法，需要一个C2环境来生成场景、管理多个智能体的感知和行动，并对其行动做出逼真的响应。本质上，C2场景的观察-行动循环需要一个仿真来实时处理多种因素。由于本论文工作聚焦于雷达任务，仿真的观察部分包含一个有源雷达组件。此外，智能体通过做出行动选择来充当认知雷达行动者，这些选择会导致雷达仿真组件在给定场景中照射物理空间。

该仿真器在本论文研究过程中不断改进，具有三个保真度级别。最低保真度版本使用雷达距离方程和模拟相控阵雷达来估计探测概率。中等保真度系统利用更先进的杂波剖面来生成距离和多普勒门的支持样本。这些样本与自适应检测器一起使用，以产生探测和虚警。最终的仿真模拟了一个完整的脉冲多普勒雷达，包括发射波形、带噪声和杂波的模拟回波信号、距离-多普勒处理以及单元平均CFAR检测器。每个版本的仿真器具有相同的C2环境，但雷达观测仿真的保真度逐步提高。由于此仿真器不是一项研究贡献，没有专门章节，但鉴于其对解释结果的重要性，附录A.4中包含详细描述。

该仿真器用于以下研究课题：“多智能体航迹确认”和“基于效用表示的可扩展多智能体监视”。此外，在支持本论文贡献的三篇出版物中对其进行了解释和使用：“用于雷达跟踪的协同博弈论与强化学习改进”[20]、“利用强化学习和博弈论进行多智能体航迹确认”[21]以及“协同监视的效用表示”[22]。

2 多智能体航迹确认

第一个研究领域探讨了RL和GT方法对多平台任务的影响，该任务旨在初始探测后确认一个高机动目标的航迹。设计并实现了一个聚焦于航迹确认RRM任务的C2场景，并集成了多种雷达后端仿真。航迹确认侧重于确认一次探测是感兴趣目标而非虚警的过程。这需要在短时间内对目标进行多次后续探测。传统上，雷达系统会额外照射同一空间多次，其假设是目标不具有高机动性，或者重新照射目标的时间间隔使其无法有效离开照射区域。

此项工作仿照近距离无人机探测进行建模，其中目标具有高机动性，且两次照射之间的时间间隔较长。此外，机动目标被设计为转向与照射源垂直的方向，从而使其相对速度接近于零，并隐藏在地面杂波脊中。考虑到目标的机动性和雷达时间资源的减少，本研究探索了低信息量跟踪方法的可行性，以及在地理上分离的多个平台条件下博弈论的影响。使用中等保真度雷达和杂波对场景进行了仿真，并记录了场景成功率、行动误差和探测概率。此外，还就平台分离和虚警的影响进行了额外分析。

核心贡献包括对低信息量跟踪方法（包括强化学习这一AI/ML方法）的探索，以及协同博弈论对多智能体自主性的影响。鉴于无人机和分布式自主系统的增加，此项研究对航迹确认的RRM任务以及多智能体协同都有影响。此项工作的早期实现发表于 International RadarCon 2023 会议论文集[20]。一篇扩展的期刊论文于2025年1月发表在 IET Radar, Sonar, & Navigation 上[21]。此项研究由美国空军科学研究办公室（AFOSR）资助。

3 基于效用表示的可扩展多智能体监视

下一个研究方法是基于第一性原理的效用方法，用于优化C2场景中的监视。监视是首要的RRM任务，代表了在空间中搜索潜在感兴趣目标的挑战。这一挑战在于探索未知空间和利用关于目标可能存在区域领域知识之间的平衡。传统上，搜索方法假设所有空间具有同等重要性，在搜索算法中应给予同等优先级。然而，C2场景通常空间过大而无法完全搜索，因此优化是必要的。将此搜索场景扩展为一个多智能体挑战，建立了可扩展的协同方法，这些方法计算量低，适用于无限数量的平台，并且可以在有或没有直接信息共享的情况下最大化多智能体效用。

这些场景包括受C2启发的、更具重要性的区域，这些区域正被感兴趣目标接近。设计了一种基于GT的空间效用表示法，该方法利用平台位置、基于C2的优先级以及一个Beta分布来平衡探索新空间和更频繁地重新搜索优先区域。这种表示法实现了平台的被动和主动协同，且具有线性可扩展性。此表示法针对多种其他方法进行了测试，以比较探测到的目标数量以及发现目标时与关键位置的距离。

此项研究的核心贡献是针对多智能体监视的可扩展优化。C2监视挑战需要多个智能体协同，并应在领域优先级指导下进行监视。基于Beta分布的平衡方法（用于平衡探索未知区域和重新访问高优先级空间）适用于其他搜索方法，并提供了一种动态解决方案。此项工作已被接受，并将在2025年国际雷达会议上发表[22]。此项工作同样由AFOSR资助。

4 可扩展的元认知雷达探测

最后一项研究贡献是开发了一个元认知自适应检测器，可在多种“球不变随机向量”（SIRV）类型杂波下进行CFAR检测。开发了一种自适应检测系统，该系统使用ML确定杂波样本的统计信息，然后动态调整阈值以维持“待测样本”（SUT）的CFAR。利用散度方法来确定跨多种分布的统计上不同的区域。设计了一个ML鉴别器来确定最可能的分布区域。作为元认知结构的一部分，第二层专用神经网络确定了最优阈值。

对元认知检测器工作的一个扩展分析了多种杂波分布，并将其整合到一个单一系统中。杂波分布具有重叠区域，完全分析时复杂度很高。该系统将问题分解为可管理的区域，并产生了微调的阈值选择器。这使得整个系统实现了CFAR性能。该系统还产生了更小的ML模型，这些模型训练迅速且能以实时速度运行。对此系统完成了扩展工作，使其能够为具有不同杂波数据或期望的不同用户动态扩展。原始系统是通过训练多个模型，并由专家探索和测试以找到最优配置的结果。设计的动态系统将自动使用数据或用户输入来自我形成、训练和测试模型，从而使雷达系统可以使用此系统，而无需依赖原始设计者。

此项研究的核心贡献包括：一种确定统计唯一区域的统计散度方法；一种在多种杂波分布下具有CFAR性能的自适应检测器；以及一个支持雷达系统采用的可扩展自我形成应用。此项工作于2023年作为“雷达应用深度学习”特辑的一部分发表在 IEEE Transactions on Aerospace and Electronic Systems 上[23]。此项工作同样由AFOSR资助。

成为VIP会员查看完整内容