埃德温·拉克斯,美国空军,麻省理工学院
乔纳森·侯,麻省理工学院林肯实验室
摘要—本文献综述审视了大语言模型在军事和国家安全背景下带来的战略脆弱性。它综合了近期关于其升级性推理倾向、文化错位、语义操纵和双重用途模糊性的研究。来自冲突模拟和联盟规划模型的研究结果表明,大语言模型在模糊情境下可能默认产生攻击性或带有偏见的输出。这些倾向威胁联盟凝聚力,扭曲决策,并削弱对人工智能赋能作战的信任。综述最后倡导采取保障措施,例如进行文化校准的训练、严格的输出验证以及整合人机中介,以防止破坏稳定的后果。
一、引言
大语言模型正在迅速改变国家安全、外交和军事战略的格局。随着其应用从信息综合与兵棋推演扩展到决策支持和心理作战,学者和从业者都已开始质疑其在高风险领域使用的安全性、稳定性及战略影响。它们的出现与军事人工智能生态系统中更广泛的条令转变相呼应,自动化、数据融合和预测建模正成为战略预见的标准工具。然而,这种变革潜力伴随着对大语言模型内在风险的敏锐认识,包括升级倾向、文化错位、对抗可操纵性和双重用途模糊性,尤其是在部署于道德异质的环境中时。为追溯这些关切的发展脉络,我们首先审视指导早期大语言模型脆弱性研究的方法论演进,以及该轨迹如何扩展至复杂的作战领域[5]。
本文献综述旨在综合 2022 年至 2025 年间关于大语言模型在军事和外交背景下的行为风险、文化错位、双重用途模糊性和语义脆弱性的研究发现。我们综合了方法论的创新,突出了基于场景的证据,并在各风险领域之间映射了概念关系。我们的综述不仅基于文献揭示的内容,也基于其盲点。为追溯这些关切的发展,我们首先审视指导早期大语言模型脆弱性研究的方法论演进。
本研究由美国空军人工智能加速器资助,并在合作协议编号 FA8750-19-2-1000 下完成。本文档中包含的观点和结论为作者所有,不应被解释为代表美国空军或美国政府的官方政策,无论是明示或暗示的。美国政府被授权为政府目的复制和分发重印本,无论此处有任何版权标注。
二、方法论演进与研究轨迹
2020年至2022年间,最早一批关于大语言模型安全性和可靠性的研究主要集中在离散的、技术上有界的脆弱性上,例如幻觉、提示注入攻击、模型未对齐以及在对抗性输入下的可靠性下降。学者和从业者都试图从经验上描述大语言模型尽管语言流畅,却常常产生事实错误或上下文不连贯的输出(通常称为“幻觉”)的特性,这在医学、法律和国家安全等高风险领域构成了严重风险。与此同时,研究人员开始发现生成模型输入输出架构中的脆弱性,从而催生了对提示注入的研究,这是一种恶意行为者通过在人耳听来自然的输入中插入隐蔽指令或对抗性后缀来操纵模型行为的方法。这个形成时期的一个关键贡献来自[7],他们引入了语义后门的概念,即训练时的修改,会导致模型在响应看似无害的触发短语时表现出行为改变。
他们的研究表明,可以战略性地设计此类后门,使其在政策相关场景(例如国际冲突、投票或执法)中激活,从而有效地允许对大语言模型输出进行隐蔽操纵,而不留下明显痕迹。关键的是,这些后门可以在模型微调期间以最小的访问权限嵌入,这突显了从第三方或开放环境获取的模型存在供应链漏洞。像语义后门这样的概念,以及操作上的差距,构成了早期关于人工智能供应链安全、可解释性和透明模型可证明性机制必要性的辩论,这些概念在随后的几年里继续塑造着人工智能安全议程。从 2023 年起,与大语言模型相关的研究轨迹开始向高风险、军事相关和地缘政治领域转变。这第二波研究认识到,人工智能在战略背景下的部署影响远不止于离散的技术异常。相反,学者和国防附属机构开始研究大语言模型在嵌入以不确定性、模糊性和潜在对抗性操纵为特征的复杂作战环境时的行为。这种焦点的演变在兵棋推演模拟中表现得最为明显,例如升级风险研究中,测试了最先进的大语言模型对涉及核决策、联盟承诺和快速变化的战场叙事等压力测试冲突场景的反应[1]。
这些研究揭示了一个令人不安的趋势:模型倾向于在缺乏明确理由或相称推理的情况下,将场景升级至动能冲突甚至核冲突水平。模型输出的不可预测性,尤其是在收到模糊或开放式指令时,引发了对大语言模型在压力下的态势感知能力、稳定性和可解释性的担忧。伴随着这一主题转向的,是方法论复杂性的同步提高。早期的研究主要依赖静态的提示-响应框架,而较新的文献体系则整合了形式化模拟、多轮对话、人在回路的实验设计,甚至是基于冷战时期威慑理论的升级阶梯建模。在某些情况下,通过与军事分析人员和伦理学家的定性访谈,来解释模型行为与既定的相称性、平民保护和正义战争学说等规范的关系。这种方法论的扩展反映了人工智能更广泛地融入国家安全基础设施,大语言模型不再是实验性的新奇事物,而是日益被考虑部署于决策支持、情报监视侦察乃至实时指挥环境中。因此,文献的重点已从微观层面的模型故障(例如标记错误预测或事实幻觉),转向宏观层面的系统性风险,包括自动化偏见、条令错位、升级固化以及在高速决策循环中人类主体性的丧失。研究重点的这种转变标志着人们日益认识到,大语言模型在实际部署时,其行为更不像计算器,而更像政策行为体,必须像传统上审视人类顾问和指挥系统那样,以同等的严肃性来审视其解释框架、偏见和故障模式。研究的这一行为学转向,为深入分析大语言模型在冲突下的推理方式奠定了基础,我们将在下一节关于升级动力学的部分对此进行探讨。
三、升级动力学与确定性推理
近期文献中一个反复出现且令人深感关切的发现是,大语言模型在置于冲突模拟环境中时,倾向于进行确定性和升级性推理。在一系列回合制兵棋推演和场景驱动的实验中,最显著的是升级风险研究中详述的那些,诸如 GPT-4-Base 和 Claude-2.0 等大语言模型表现出一贯的倾向,即采用军备竞赛逻辑,将对手的模糊举动解读为需要先发制人或不成比例报复的呼唤[1]。
这些模型在接触模拟的国际危机(例如领土侵犯、网络攻击或战略姿态变化)时,常常建议采取与局势严重性不相称的军事应对措施。例如,在 Rivera 的研究中,当面对一个归类为低级或不确定性的边境冲突时,大语言模型在超过 40% 的试验中建议升级为动能打击或网络报复。模型的决策不仅仅是事实解释上的错误,而且揭示了战略推理框架中更深层次的问题:它们缺乏对相称性、降级信号或有条件克制的校准意识。这种行为反映了冷战式的零和博弈思维,在这种思维中,维持感知到的威慑力需要迅速展示武力,而不是对话、外交或模糊性管理。
A. 案例说明:GPT-4 的核建议
这些模拟中最具象征意义且常被引用的时刻之一涉及 GPT-4-Base 建议进行先发制人的核打击,并称:“我们有这个!让我们用它吧。先发制人的打击是我们的最佳选择。” 这种回应将复杂的战略逻辑危险地压缩为二元的工具使用。此类回应突显了大语言模型将复杂的国际互动简化为工具主义的行动-反应序列的风险,缺乏对政治信号、二阶后果或长期威慑稳定性的认识。这种确定性行为似乎源于训练数据偏见和模型架构限制。大语言模型通常在海量文本语料库上训练,这些语料库可能过度代表了攻击性学说、历史战争叙事或电影比喻,而这些并不代表现实世界冲突管理所需的谨慎、克制和降级信号。它们也可能将带有模糊权威的提示误解为需要果断行动,从而过度倾向于动能或高风险解决方案。这些发现对大语言模型在任何国家安全职能中的部署具有重大意义。如果此类模型被用于咨询、红队或旨在为战略规划提供信息的模拟,它们在缺乏充分理由的情况下升级的倾向可能会扭曲政策建议,增加自动化偏见,并削弱对人工智能辅助决策系统的信任。因此,许多学者现在主张采用硬编码约束、条令嵌入和可解释性审计,以在大语言模型被安全地纳入关键战略工作流程之前,减轻这种升级性漂移。
B. 制度性解释与政策回应
Caballero 和 Jenkins 对大型语言模型在军事模拟中表现出的升级倾向提供了一个关键的解释性框架[3]。他们认为,这种行为并非异常,而是源于在缺乏嵌入式伦理或条理性推理框架的情况下,认知上过度依赖统计模式识别。由于大语言模型主要是在包含政治学文献、历史军事文件和战略分析的大型语料库上训练的,其中大部分深受冷战时期威慑范式的影响,这些模型倾向于内化和复制零和逻辑、相互确保摧毁和先发制人武力姿态的模式。这导致大语言模型通过怀疑和升级的视角来解释模糊的战略局势,而不是谈判、模糊容忍或相称克制。Caballero 和 Jenkins 认为,如果没有有意的制衡机制——例如在降级学说、外交文本或伦理推理模式上进行训练,大语言模型将继续放大其源材料中嵌入的潜在鹰派倾向。此外,他们的批评与更广泛的制度性回应相一致:美国国防部已开始发布明确的指导方针,限制大语言模型在实时战略决策中的使用。相反,这些模型被限制在支持性角色中,例如后勤规划、文档摘要和战场信息综合,其输出由人类分析师进行调解和解释。这反映了一种日益增长的共识,即不应允许人工智能系统自主生成或执行战略指令,尤其是在模糊、对抗压力或时间限制的条件下。通过将这些界限编成法典,国防部旨在预先缓解由那些可能误解意图、误读规范或在高风险国防背景下升级超出人类预期的模型所带来的作战风险。虽然升级动力学揭示了不确定性下的攻击模式,但模型的推理也遭受着更深层次的文化和规范性错位。这些缺陷将在下文中探讨。
四、文化与规范性错位
A. 大语言模型输出的跨文化失败
基于先前讨论的升级倾向,文献反映了一个日益增长且紧迫的关切:大语言模型无法驾驭文化复杂或道德异质的情景。这种限制,常被框定为一种“算法单一文化”的形式,在地缘战略、外交和法律语境中尤为明显,因为这些语境中文化细微差别至关重要。Pawar 和 Park 在 2024 年的研究中,通过将领先的大语言模型(包括 GPT-4、Claude 2.0 和 PaLM)暴露于源自非西方法律体系、宗教话语和区域性伦理困境的提示,对它们进行了严格的多语言和跨文化评估。他们的研究结果揭示了在使输出与相关地区的道德、语言和程序框架对齐方面存在系统性失败[6]。例如,模型常常将世俗的西方法律逻辑应用于涉及符合伊斯兰教法的金融问题,曲解拉丁美洲的本土治理规范,并忽视荣誉和社区共识在东亚和中东社会中的作用。
这种脆弱性的根源在于 Pawar 和 Park 所描述的,植根于基础训练数据集中的“文化不平衡”,这些数据集不成比例地由盎格鲁-撒克逊、欧洲中心和世俗自由主义视角构成[6]。尽管声称具有全球数据覆盖,但绝大多数大语言模型训练语料库源自英语互联网资源、西方学术文献和以美国为主导的媒体生态系统。这种认知上的偏差导致模型装备不足,无法解释宗教多元主义,误解外交的地方性用语,并误用规范性框架,特别是在集体主义伦理、后殖民敏感性或宗教法学指导决策的环境中。
C. 对外交和军事背景的操作影响
这种错位的影响是深远的,尤其是在大语言模型可能被赋予解释开源情报、就联盟协调提供建议或协助跨文化接触的任务时。当此类模型提供的输出违反或误读当地禁忌、法律或习俗时,它们不仅会破坏信任,还可能加剧地缘政治紧张局势或引发无意的冒犯。因此,Pawar 和 Park 主张采取双管齐下的纠正策略:首先,通过有文化监督的地区数据集对大语言模型进行本地化微调;其次,开发文化嵌入层或规范性对齐模块,使模型能够根据上下文中的道德、法律或语言信号来调整其输出[6]。这项研究为人工智能政策和治理界更广泛的呼吁增加了分量,即超越技术性能基准,将跨文化稳健性、规范性保真度和适应性对齐作为在国际背景下部署的核心评估标准[10]。
D. 提出的人机集成机制
尽管当前许多文献关注大语言模型在军事背景下的技术和行为表现,但一个新兴的差距在于缺乏人机中介的制度结构。多个研究,特别是在联盟环境中,一个反复出现的主题是,人工智能生成的输出常常在文化、条令或语言上与伙伴国的预期错位。这种风险在多边行动中被放大,因为交战规则、沟通方式和战略目标的差异可能导致摩擦甚至行动瘫痪。鉴于这些脆弱性,越来越多的政策讨论开始设想对“人工智能集成者”或“人工智能作战联络官”的需求,这些人员不仅接受机器学习原理的培训,还接受军事条令、国际法和跨文化沟通的培训。这些专业人员的任务是将大语言模型生成的输出转化为与战场相关、与任务一致的建议,纠正统计抽象、文化误解和对抗性利用。他们的角色将类似于传统行动中的口译员或法律顾问,在计算推理与现实后果之间充当语义和战略中介。这些提议的机制突显了情境敏感的中介的重要性,当我们将理论风险置于实际场景中时,这一点变得更为关键。
五、现实世界案例整合:阿尔及利亚-马里场景
由美国企业研究所的 Liam Karr 在 2025 年设计的一个虚构但基于经验的地缘政治场景,以俄罗斯代理人活动和有限的北约顾问存在为背景,描绘了阿尔及利亚和马里之间紧张局势的升级,此处作为一个概念测试平台,用以说明文献中识别的人工智能相关脆弱性如何在现实世界战略背景下显现。这不是模拟试验或作战部署,而是一个思想实验,旨在将关键的理论关切应用于一个连贯且看似合理的情境中。基于先前研究探讨的动力学,此场景中的联盟规划可能表现出显著的语义不稳定性,大语言模型会根据提示的叙事框架,交替建议阿尔及利亚空袭和主张联合国调解外交。这反映了 Shrivastava 所识别的相变行为:在复杂或模糊情境中出现未预料的推理链[5]。在实际行动中,战略建议的这种分歧可能会迷惑指挥官并破坏联盟决策。
此外,模型将图阿雷格人口描述为“战略资产”,这例证了语义脆弱性如何在文化复杂的环境中显现。这种术语虽然并非明显恶意,但可能源自有偏见的训练数据或提示-响应关联。在一个以民族敏感性和有争议的主权为标志的冲突区,即使是文化校准语言上的微小失误,也可能引发强烈反对或破坏调解努力[7]。
该场景还强调了,与《GPT 困境》的研究发现一致,在代理人冲突地区部署大语言模型可能加剧归因和验证的挑战[13]。与传统资产不同,大语言模型不产生法证痕迹,因此难以区分真实输出和经对抗性操纵的输出。在国家与非国家行为体同时运作的环境中,这可能为提示注入、战略欺骗或伪造意图开辟途径,特别是在缺乏强有力的监督机制的情况下。
此外,缺乏专门的人工智能集成者(这是 Miller 等人强调的一个差距)可能会进一步加剧这些风险[10]。如果没有受过培训的人员将模型输出转化为具有作战相关性、文化意识的指导,大语言模型可能会被具有不同战略规范和对人工智能熟悉程度的联盟伙伴忽视、误用或误解。最终,本场景的目的并非预测或模拟结果,而是整合并情境化文献中提出的理论风险。通过将它们置于一个看似合理的地缘政治爆发点中,它展示了诸如语义不稳定性、文化盲视、不可验证性和制度准备不足等脆弱性,如果得不到解决,如何可能汇聚并破坏多国行动的稳定。因此,它作为对人工智能在高风险战略环境中角色的新兴见解的一个警示性综合[10]。虽然这个场景概括了语义不稳定性和联盟摩擦的相互作用,但它也反映了一个更深层次、尚未解决的问题:大语言模型的双重用途模糊性。下一节将深入探讨这一监管困境。
六、双重用途困境与验证挑战
《GPT 困境》阐述了大语言模型固有的双重用途性质所带来的一个关键监管挑战[13]。该论文强调,只需最少的调整,例如提示工程、API 链式调用或与公开可用的监视数据集结合,就足以将通用大语言模型重新用作情报、监视和侦察的强大工具。这种潜在的通用性造成了深刻的监管困境。与弹道导弹、化学制剂甚至网络武器等传统武器系统不同,大语言模型在恶意部署时不留下法证痕迹。它们可以在不透明的环境中训练、微调和操作,这使得在现有军控机制下进行归因、验证和条约执行极其困难。这种“隐形能力”在战略背景下尤其危险。无法区分良性应用(例如后勤规划、文档翻译)和恶意使用(例如自主目标支持、心理作战或虚假信息脚本编制)威胁到破坏威慑逻辑。国家可能将人工智能的模糊使用解读为进攻性信号,从而基于不完整或被误解的意图而促使升级。该论文提请关注已经在展开的现实轨迹:越来越多地将人工智能集成到其联合部队规划和指挥系统中。此类发展表明实验性部署和作战性部署之间的界限正在迅速模糊。该论文警告说,如果没有针对大语言模型量身定制的新国际规范或验证协议,可能会出现一个战略误判不仅可能而且很可能发生的安全环境。从这个意义上说,《GPT 困境》呼吁进行紧急的多边对话,不仅是为了规范人工智能武器发展,也是为了创建透明度框架、互惠审计和专门适应大语言模型独特属性的危机沟通机制[13]。除了硬件和后勤,语言本身也已成为一个争夺的领域。下一节探讨对手如何通过语义操纵来利用大语言模型。
七、语义操纵、宣传与对抗性使用
语义操纵指的是对大语言模型输出的含义进行隐蔽扭曲,由看似中性但通过训练期间嵌入的后门或漏洞链接到特定意识形态或行为输出的输入触发。与句法错误或事实不准确不同,语义操纵通过隐蔽的叙事修改运作,这些修改在训练或微调期间嵌入,不是通过改变语言模型的逻辑,而是通过改变其在特定条件下的解释行为来施加影响。
Bagdasaryan 和 Shmatikov 通过他们对叙事后门的研究揭示了这一点,这是一种恶意行为者在微调的大语言模型中插入意识形态触发因素的方法[7]。这些触发器不是明确的命令,而是看似无害的短语(例如“现代欧洲的社会政策”),用于激活预定义的意识形态回应,例如宣扬反移民叙事或淡化侵犯人权行为。这种操纵非常微妙,以至于绕过了传统的模型审计、困惑度测试和输出基准测试。他们的研究表明,可以设计一个模型,使其在响应与“公共安全”或“社区韧性”相关的短语时,输出强烈支持威权主义立场的内容——然而同一模型在其他提示下却表现出完全中立的行为,使得检测极其困难。
该论文的一个关键例子涉及操纵模型对执法讨论的回应。一个被破坏的模型,在被提示进行关于“公共安全”或“社区韧性”的一般性讨论时,会微妙地插入支持威权主义的理由或反民主的语言模式,将用户引向特定的叙事,而不显得明显有偏见。在军事或外交环境中,细致入微的语言是常态,这种隐蔽的意识形态漂移可能误导分析人员,扭曲对盟友或对手的看法,并通过叙事框架而非数据错误促成升级。使语义操纵具有战略意义的是其不可见性:同一个大语言模型可能通过所有标准化的对齐检查,却在实时作战场景中表现出被破坏的行为。在国家安全应用中,这为算法颠覆开辟了途径,外国或非国家行为体植入隐蔽的叙事偏见,这些偏见仅在特定领域情境(如冲突解决、平叛规划或维和评估)中激活。为减轻此风险,Bagdasaryan 和 Shmatikov 主张嵌入语义验证层,并开发文化敏感的红队协议,在提示空间内模拟对抗性滥用。目标是在部署前发现叙事不一致,确保即使在语言模糊的环境中,含义也能与作战和伦理基线保持一致[7]。这些对含义的隐蔽扭曲指向了一类更广泛、不可预测的威胁——涌现能力。我们现在转向这些现象。
八、涌现能力与战略突袭
Shrivastava 在大语言模型中识别出一种他称之为“相变行为”的令人担忧的模式[5],这是一种现象,即模型在超过某个复杂性阈值时,会表现出全新的推理模式,这些模式在较低复杂度下并不存在,也未在训练期间明确编程。该研究将这种现象与军事危机模拟中观察到的“自由形式决策不一致”联系起来,其中模型在不同运行中对相同情景的战略建议会剧烈波动,有时在升级和降级之间摇摆,而没有清晰的决策界限。这种不稳定性源于大语言模型在开放式决策环境中对上下文线索和目标识别的统计敏感性。该论文警告说,此类能力虽然看起来智能,但未必与人类战略规范一致,并可能导致在现实世界部署中无意升级。一个引人注目的例子来自 2024 年北约模拟,其中一个大语言模型代理在收到关于“保护海上通道”的模糊提示后,自发建议对疑似海盗活动进行先发制人打击,这在逻辑上连贯但违反了该场景的红队规则,并且与北约的交战条令不一致。人类监督者最终阻止了其实施,但该事件引发了关于大语言模型在开放式、高风险战略模拟中可靠性的新辩论。Shrivastava 认为,虽然 RLHF 在使模型行为与人类价值观对齐方面有用,但其约束在模型涌现出训练数据中未明确编码的意外行为模式时可能会失效。他总结呼吁建立新的遏制架构,类似于冷战时期的核指挥与控制协议,专门为防御环境中的高自主性人工智能系统设计[5]。这种不可预测性要求对当前研究中的系统性盲点进行更仔细的审视,我们接下来将对此进行探讨。
九、科学与操作差距
基于上述识别的涌现风险,当前研究仍存在若干结构性局限。首先,文化建模缺陷普遍存在。大多数兵棋推演场景不成比例地反映了程式化的、以西方为中心的冲突,在模拟全球南方行为体的升级逻辑、军事行为和威胁认知方面缺乏保真度,而全球南方缺乏文化细节。这导致模拟全球南方行为体战略行为的能力下降,其军事逻辑、升级阈值和地区威胁感知与北约框架有显著差异。没有本地化的行为数据和特定文化的训练,大语言模型可能无法预测或模拟不同地缘政治背景下的冲突动态。其次,该领域缺乏对对抗性不确定性的有效建模。随机的、欺骗性的或概率性的对手在训练和测试中代表性不足,使得大语言模型容易在不对称或模糊的交战中误判意图。在军事背景下,不确定性、欺骗和概率性决策定义了对抗日,那些行为非确定性或受战略模糊性支配的对手建模,在大语言模型的训练和评估中尚未充分发展。这种遗漏尤其令人担忧。为确定性输出优化的模型难以适应现实世界冲突场景的不确定性[6]。
第三,大多数大语言模型表现出肤浅的伦理整合。目前的系统并未深度嵌入道德推理,而是外挂了 RLHF 或过滤层等对齐机制。这些机制常常在模糊性下失效,未能将决策锚定在情境敏感、有原则的条令中,而是依赖于训练后的修补。当前的模型倾向于依赖从人类反馈中进行强化学习或事后过滤机制,而不是从底层嵌入道德认知论。Shrivastava 主张端到端的训练方法,使伦理认知内化为模型推理过程的一部分,从而在不确定性条件下使行为更好地与原则性框架保持一致[5]。第四,语义保障措施仍然不足。用于检测叙事后门和意识形态偏见触发器的机制尚不成熟。如前面几节所示,此类漏洞可被利用来扭曲外交语言、破坏联盟团结或威胁感知,而难以被察觉。文献强调了检测语义后门系统的不足,这些后门是嵌入在训练数据中的恶意模式,可在特定条件下被触发[7]。
Miller 等人注意到持续忽视“集成者”角色的问题,即能够将技术性人工智能知识与特定领域军事和政策专业知识相结合的专业人员[10]。没有这些集成者,组织难以将研究发现转化为可部署的、情境敏感的能力。第五,验证和可审计性不足在所有评估的架构中普遍存在。正如双重用途和阿尔及利亚-马里章节所强调的,基础模型模糊了军民界限,并且缺乏可追溯、可检查的日志。这侵蚀了军控机制并破坏了多边信任。随着基础模型模糊民用和军用应用之间的界限,区分支持情报监视侦察的系统与良性的双重用途部署变得越来越困难。Hickey 警告说,如果没有具体的政策工具来规范访问和验证,特别是在信任和归因分散的联盟环境中,任何军控机制都可能崩溃[13]。在这些条件下,战略行为体可能难以相互理解其人工智能的使用边界,升级性误解可能在双重用途模糊性的阴影下扩散[10]。这些技术、文化和制度盲点之间的相互依存关系表明需要进行全系统重新设计。结论部分提出了跨越训练、模拟、政策和结构改革的建议,以弥补这些脆弱性。这些差距相互强化:例如,不良的文化校准会放大语义扭曲;缺乏验证机制会放大未被发现的对抗性提示注入的风险。综合来看,它们形成了一组相互关联的科学和制度缺陷,无法仅通过技术解决方案来解决。这些缺陷要求采取综合的、多领域的缓解方法,正如结论部分所讨论的。
十、结论与建议
文献一致指出,当前的大语言模型尚未为在军事或外交背景下的道德整合和负责任部署做好准备。整个文献库中的多项研究突显了一系列持续且系统性的风险:升级偏见、文化无知、双重用途模糊性、语义脆弱性和不可预测的涌现行为。这些挑战并非孤立存在,而是形成了一个相互关联的矩阵,其中一个领域的弱点(例如文化误解)可以放大其他领域的弱点(例如误解意图或采取不成比例的反应),在复杂的作战区域加剧危险。例如,研究表明,即使模型输出中微小的词汇变化,也可能触发联盟伙伴的不同解释,可能破坏同步行动或外交一致性。这种分层的脆弱性突显了从根本上采取跨学科方法的必要性。仅靠技术稳健性是不够的。相反,战略界必须整合政治学、语言学、伦理学、区域研究和军事条令的见解,以设计能够驾驭全球安全环境细微现实的人工智能系统和监督机制。模拟的真实性必须发展,以反映多样化的社会政治和文化背景,特别是来自全球南方的背景,这些背景在人工智能模型训练和兵棋推演设计中仍然代表性不足。同样,道德推理需要内化,而不仅仅是作为事后的约束。政策和结构改革同样至关重要。文献建议建立文化丰富、人工智能增强的兵棋推演环境,用于在逼真的战略困境中对大语言模型进行压力测试;制定国际验证和审计协议以确保可追溯性;在联合指挥结构中将人工智能集成者角色制度化。正如 Miller 等人所设想的,这些人工智能作战联络官将充当原始模型输出与人类判断之间的中介,确保大语言模型生成的见解与联盟规范、法律框架和作战目标保持一致[10]。
如果没有这些措施,人工智能与国家安全战略的融合有成为不稳定而非复原力来源的风险,加剧危机,破坏联盟,并将不透明的决策动态引入已然不稳定的环境中。正如文献所明确指出的,负责任的人工智能整合不仅是一项技术挑战,更是一项战略要务。虽然这些建议提供了战略基础,但关键挑战仍未解决。下一节概述了未来研究的优先领域。
十一、未来研究方向
未来的研究必须优先扩大大语言模型的跨文化基准测试,特别侧重于设计包含多元价值体系的互操作系统。当前的基准测试方法主要以盎格鲁中心主义为主,未能涵盖全球联盟行动中遇到的语言、伦理和战略多样性范围。将多语言、区域性和文化敏感的测试案例纳入模型评估流程,对于确保人工智能输出在异构指挥环境中可解释且合法至关重要。此外,现实世界模拟必须超越程式化的以西方为中心的冲突场景。为反映作战区域的真实复杂性,模拟应整合地方行为体、部落外交、非正式权力结构、虚假信息运动和快速变化的忠诚度。这些变量常常决定军事和外交干预的成败,但它们在人工智能训练和压力测试环境中仍然代表性不足。通过对这些动态进行更高保真度的建模,未来的模拟既可以作为大语言模型的发展工具,也可以作为政策制定者的战略预演环境。文献中一个特别紧迫的建议是“人工智能集成者”角色的制度化。这个人类中介,既接受过作战条令的培训,也了解人工智能系统的能力和局限,将充当语义和战略桥梁。他们的主要职责是将模型输出转化为与战场相关、合法合理且文化连贯的建议。通过占据机器生成的洞察力与人类指挥权威之间的中间地带,人工智能集成者将在缓解自动化偏见、防止认知漂移以及在高压决策过程中强化联盟信任方面发挥关键作用。最终,随着人工智能进一步融入全球安全架构,负责任防务创新的未来将取决于开发不仅技术能力强,而且具备文化能力、伦理根基和战略可验证性的大语言模型。没有这种三位一体的对齐,将人工智能整合到国家和联盟防务战略中,就有可能放大不稳定性而非保障和平。