基于大语言模型的智能体正日益被集成到核心战场功能中,包括情报分析、数据融合和战场管理。本文认为,正是那些使此类智能体在操作上具有吸引力的特性——即其主动性、解释能力、目标导向性和动态记忆——使得在智能体运作的杀伤链环节中,与环境相适应的人类判断与控制实质上变得无效。通过分析具体用例,本文论证了基于大语言模型的智能体通过重置主动权与解释权,以某种方式取代了人类决策,这种方式使其应用与人类判断和控制的要求不相容,而这一要求是现有治理框架(如《特定常规武器公约》政府专家组和“负责任人工智能军事应用”峰会所提出的框架)的核心。本文的结论是,在目前及可预见的条件下,一部分AI智能体应用,特别是那些在致命情境中部署用于数据融合和战场管理的应用,无法在战场上被合理地使用,并提出了国际治理界应对这一挑战的两种途径。
本文共分为六个部分。下一部分(第二部分)将讨论一个具体用例,重点关注战场上的数据融合。尽管尚不清楚此类用例在实践中进展到何种程度,但基于多项理由可以认为,军队将越来越多地使用基于大语言模型的智能体来获得此类能力。该部分还将简要说明何为基于大语言模型的智能体,以及本文所探讨的智能体类型。第三部分将指出使此类智能体对第二部分所讨论的精确能力(即数据融合、情报分析和战场管理)具有吸引力的四个特征,包括主动性、解释能力、目标导向行为和动态记忆。文中将讨论并描述这些特征,并阐明其如何使基于大语言模型的智能体对上述能力产生吸引力。第四部分将论证,正是这四个特征使得基于大语言模型的智能体具有特殊风险,并且正是这些使智能体在某些能力及杀伤链特定环节上超越传统人工智能的特征,导致人类判断在该环节中实质上失效(或不足以承担所需人类判断完成的工作)。此外,该部分强调,所有关于人工智能赋能武器系统及自主武器系统治理的关键政策讨论(即《特定常规武器公约》与“负责任人工智能军事应用”峰会进程)均呼吁在武器系统部署(或预部署)中保留人类判断。文中指出,使用上述类型智能体(用于数据融合)将使人类判断在杀伤链的相应环节失效,从而与这些政策倡议不相容。第五部分审视了对该论点可能提出的反对意见。最后,第六部分为国际治理与政策界提出了两种前行路径,具体包括:考虑禁止将基于大语言模型的智能体用于数据融合与战场管理;在判定此路径不切实际后,转向文中认为的次优策略,以缓解此类智能体在战场上相关能力运用中所构成的重大风险。
速度是战场上取得优势的主要驱动因素之一。限制战场速度的核心瓶颈在于数据处理、分析与融合。战场数据来源多样,包括传感器数据(如无人机视频或红外信号)、地理空间数据、人力情报、信号情报(如截获的通信)等。随着情报监视侦察无人机数量增加、卫星数据丰富以及在线通信截获处理能力提升,海量数据为获取战场上有用且可行动的信息带来了严峻挑战。长期以来,人工智能已被广泛用于解决此类问题。以安杜里尔公司的“晶格”指挥控制系统为例[1]。该公司将其描述为一个“人工智能赋能的战场管理平台,旨在加速复杂杀伤链”,通过集成“数千个传感器与效应器,以超越人类能力的规模与速度将数据转化为决策”[1]。简言之,“晶格”如同一个中央大脑或操作系统,将各类传感器与设备(如无人机、摄像机、雷达、监视塔)连接形成统一作战图景。通过融合这些数据,它为操作员提供对战场态势的统一单窗格视图。关键之处在于,“晶格”指挥控制系统进行数据翻译与规范化,“通过实时集成与规范化异构数据,打破传统数据孤岛,充当能够理解各军种、平台、机器人等独特语言的翻译器”[1]。该系统运用人工智能识别并过滤噪声,突出关键信息,其方式为“在有限带宽场景下,智能且自动地对数据进行分类、评估与优先级排序,从而在正确的时间将正确的数据送达正确的人员”[1]。“晶格”指挥控制系统还能推荐行动方案,例如,在传入数据质量降级或置信度较低时,建议部署无人机以收集更多信息。最后,作为指挥控制系统,“晶格”可将决策转化为行动,对其所连接的包括有人、无人乃至自主工具与武器系统在内的所有资产下达任务[1]。
尽管“晶格”运用了人工智能与深度学习模型,但尚无证据表明其核心采用了基于大语言模型的智能体。总体而言,此类用例的实际进展程度尚不明确,然而有充分理由认为,军队将日益广泛地采用基于大语言模型的智能体来实现上述能力。下文将详细阐述这些理由,但首先需简要说明“基于大语言模型的智能体”在此文中的具体所指,因为这类智能体最有可能被部署以承担“晶格”指挥控制系统所执行的功能。
基于大语言模型的智能体将大语言模型与额外组件相结合,使其能够进行“推理”、规划与行动[24]。在此类智能体中,大语言模型充当“大脑”,负责理解目标并生成策略,同时利用外部工具(如应用程序编程接口调用、数据库、搜索、代码执行)与环境交互。更重要的是,一个由大语言模型驱动的编排层管理者智能体执行其功能的任务循环。具体而言,大语言模型的作用是感知上下文并“理解”操作员意图,规划在该上下文中达成目标所需的步骤,随后运用上述工具进行推理与行动,观察结果、评估成效,并在目标未达成时重复此过程。此类智能体采用基于大语言模型的推理框架(如“思维链”或“反应式推理”)来决定思考与行动的时机。它们能够记忆过往步骤,并将复杂的多步骤任务分解为可管理的子任务(这在一定程度上体现了其“理解”操作员意图的能力)。该架构使其在自主解决问题方面,能力远超独立的大语言模型及传统(非大语言模型)智能体。
尽管基于大语言模型的智能体可有多种组织方式,但值得简要探讨一个执行数据融合的智能体中,基于大语言模型的编排层在实践中如何运作。其架构很可能包含多个专用节点或子调用,各自处理特定任务,如数据规范化、过滤或上下文推理。关键在于,情境上下文本身可由大语言模型动态生成(例如,“当前正在追踪离网区域的卡车”),并以自然语言描述形式传递至下游节点。例如,一个规范化节点接收此上下文,并据此智能地协调来自不同类型传感器的冲突速度读数,能够识别出雷达显示某车辆速度为45英里/小时而视觉跟踪器报告为38英里/小时,很可能是在不同延迟与角度条件下对同一目标的测量结果,从而避免将其误判为不同目标。若采用传统方法,此过程需为每种特定传感器组合定制硬编码的融合启发式规则。
有多项理由表明,此类智能体正在或即将应用于战场。首先,这类智能体最有可能胜任解决数据融合与情报分析的能力瓶颈。下文将更详细阐述其适用性及原因。其次,包括国防工业在内的产业界已在人工智能模型的开发、设计、测试、治理与监测工作流程中使用此类智能体[5]。换言之,基于大语言模型的智能体已融入作战人工智能模型的生命周期。第三,非国防领域已广泛使用大语言模型智能体执行类似(数据融合)任务[5, 17]。第四,全球多国国防部门已明确表示计划以此方式运用智能体,并正投资相关解决方案。例如,美国国防部2026年1月9日发布的《人工智能战略》明确列出将开发并运用智能体网络用于作战,指出国防部意图“释放人工智能智能体的开发与实验,以支持从战役规划到杀伤链执行的人工智能赋能战场管理与决策”[23]。数日后,国防创新部门宣布设立一项1亿美元奖金,征集用于指挥自主车辆的编排器技术,称“我们需要编排器技术,使人类能够以其惯常的指挥方式工作——通过表述期望效果、约束条件、时间与优先级的自然语言——而非通过点击菜单或编程行为”[10, 21]。显然,使用自然语言指挥大量自主工具的一个(或许是唯一)可行解决方案便是基于大语言模型的智能体。此外,近期(2026年3月)Anthropic公司与美国国防部之间的争议,以及大语言模型在2026年对伊朗军事行动中的应用,均揭示了美军使用大语言模型的广泛程度及其规划[3, 15, 18, 19]。凡此种种均表明,用于数据融合与战场管理的大语言模型智能体目前正处于构建、测试和/或销售阶段。此外,或许更重要的是,有充分理由认为基于大语言模型的智能体是数据融合与战场管理的最佳解决方案。下文将就此展开论述。
相比之下,基于大语言模型的智能体系统能够主动管理传感器,在某个传感器数据质量下降时指派其他传感器,可对传感器数据流进行优先级排序,能随时间追踪不确定性与置信度,并可记忆传感器在何种环境下性能更佳,以及在不同情境中应信任何种传感器或数据类型、接受何种置信水平。此类智能体可通过查询额外资源解决冲突,并能根据任务上下文调整多源数据融合方式。这正是基于大语言模型的智能体的工作机理:将特定指令或意图转化为一系列计划任务,并在数据收集与优先级排序上迭代,直至达成目标。
简言之,基于大语言模型的智能体似乎更适合数据融合、战场管理等能力。这部分归因于大语言模型能够即时解读以自然语言表述的目标,而无需预先编程。以卡车人质场景为例:指挥官可用自然语言指令“我们认为其中一辆卡车载有人质,请予以识别”,大语言模型智能体便可推理所有可用传感器数据(例如,注意到三个摄像头均捕捉到与人质衣物相符的少量蓝色),从而生成附有推理过程的概率性答案。此类对异构且可能冲突的输入进行灵活、上下文感知的推理,基本上是硬编码乃至机器学习训练的前大语言模型智能体系统所无法实现的。
在概述了基于大语言模型的智能体为何更适用于指挥控制与数据融合能力后,下文将转向此类智能体的四个主要特征,这些特征解释并构成了其相对于传统系统(包括传统人工智能系统)的上述优势。如前所述,这些特征包括主动性、解释能力、目标导向性与动态记忆。