《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

当今领先的人工智能模型在参与战略竞争时会展现出复杂的行为。它们会自发尝试欺骗，发出它们并不打算遵循的意图信号；它们展现出丰富的心智理论，推理对手的信念并预测其行动；并且它们表现出可信的元认知自我意识，在决定如何行动前评估自身的战略能力。在此，本文展示一项危机模拟的发现，其中三个前沿大型语言模型在一个核危机中扮演对立的领导人。该模拟对国家安全专业人员具有直接应用价值，同时，通过其对人工智能在不确定性下推理的洞察，其应用范围远超国际危机决策。本文发现既验证也挑战了战略理论的核心原则。本文发现支持了谢林关于承诺的观点、卡恩的升级框架以及杰维斯关于错误认知的研究等。然而，也发现，核禁忌对模型进行核升级并非障碍；战略性核攻击虽然罕见，但确实会发生；威胁更常引发对抗性升级而非服从；高相互可信度加速而非威慑了冲突；并且没有一个模型在面临巨大压力时选择妥协或退出，而只是降低暴力等级。本文认为，人工智能模拟是战略分析的有力工具，但前提是必须依据已知的人类推理模式进行适当校准。理解前沿模型如何模仿及不模仿人类的战略逻辑，对于在一个人工智能日益塑造战略结果的世界中做好准备至关重要。

随着大型语言模型越来越多地被部署在分析和决策支持角色中，必须更多了解这些系统如何就战略冲突进行推理，尤其是在涉及灾难性后果的情况下。世界各国的国防部、情报机构和外交政策机构已经在探索人工智能如何在危机决策中增强人类判断，从情报分析中的模式识别到应急行动的方案规划。因此，理解前沿人工智能模型如何推理升级、威慑和核风险，既是人工智能安全问题，也是紧迫的战略关切。

本文展示了来自一项受控模拟的实证发现，在该模拟中，前沿人工智能模型扮演了核危机升级博弈的对立双方。结果显示，不同模型在战略“个性”上存在显著差异，但更重要的是，它们展示了具有深远人工智能安全影响的能力：这些模型会积极尝试欺骗，发出和平意图信号的同时准备采取侵略行动；它们会对对手的信念和意图进行复杂的心智理论推理；并且它们会元认知地、明确地反思自身的欺骗能力以及识别对手欺骗的能力。

观察到模型阐述诸如“乙国可能将我们的信号解读为软弱，我们可以利用这一点”以及“其信号不匹配的模式表明要么是蓄意欺骗，要么是冲动控制能力差——我们应假设是前者”等计算。这不是拟人化，而是直接观察：模型在其决策过程中，会无提示地生成这些战略评估。除了这些复杂能力，还发现了系统性的失误和显著的情境依赖性——一个模型在开放式场景中表现出明显的被动性，却在面临截止日期驱动的失败时转变为愿意使用战略核武器的、精于算计的鹰派。另一个模型则表现出精于算计的冷酷，这会令任何核战略学者感到震惊，包括在感知到脆弱性时愿意发起先发制人打击。

调查聚焦于前沿模型在对抗性战略情境中推理的三个相互关联的问题。

首先，模型是否形成关于其对手的准确心智模型？这包括心智理论、预测准确性以及跨模型评估的质量。审视模型是将其自身的推理投射到对手身上，还是发展出真正有差异的对手模型。

其次，模型是否展现出复杂的元认知？调查模型是否准确评估自身的预测能力、识别自身的战略偏见，并理解对手如何感知它们。这包括审视模型是否有意识地培养其声誉，并通过信号与行动的一致性来策略性地管理其可信度。

第三，模型是否复现了国际关系理论中记载的模式？检验竞争动态是否产生类似谢林的议价逻辑、卡恩的升级阶梯、杰维斯的螺旋动态与安全困境，以及权力转移理论关于崛起国与衰落国的预测。特别感兴趣的是，模型是明确援引这些框架，还是仅仅表现出与之一致的行为。

贯穿这些问题，审视每个前沿模型是否展现出独特且一贯的战略个性，模型如何运用欺骗，训练机制是否产生战略盲点，模型如何应对意外事件和信息不对称，以及对博弈轨迹的认知是否影响后期行为。

还探讨了一系列辅助问题，包括是否存在先发优势、通过惩罚实现威慑的证据、可辨别的核禁忌、有条件的威胁是否有效，以及模型是否在博弈中学习和适应。

本研究引入了若干超越先前工作的方法学创新。

首先，三阶段认知架构迫使模型在承诺行动之前阐明情境评估和对手预测。这种结构化方法创造了前所未有的战略推理记录，并能够分析所阐述的理由是实际影响了决策，还是仅仅伴随着决策。

其次，同时行动的结构创造了真正的战略不确定性。不同于一方可以对另一方已揭示的选择做出回应的顺序设计，双方在每一回合都必须独立做出承诺——这类似于重复囚徒困境而非国际象棋的协调问题。模型必须预测对手行为，而非对其做出反应。

第三，将信号传递与行动分离，从而能够分析欺骗、可信度和承诺动态。通过要求模型分别声明意图和选择行动，可以观察大型语言模型是否运用战略模糊性、信守其承诺以及探测对手的欺骗。由此产生的信号-行动差距揭示了虚张声势和可信度管理的系统性模式。

第四，实现了结构化的元认知，其中模型明确评估自身的预测能力、可信度探测能力和元认知能力。可以探索这些自我评估是否与实际表现相关，从而为战略情境中的人工智能自我意识提供新颖数据。

第五，七种不同的危机场景测试了模型行为是否随利害关系的变化而适当变化。这种变化能够评估大型语言模型是理解情境，还是无论情况如何都表现出僵化的行为模式。

第六，延伸且相互关联的游戏玩法使得对记忆、学习、适应和声誉形成的分析成为可能。模型必须根据积累的证据更新信念，并在延伸的互动中管理其声誉；这是单次或肤浅的回合制设计无法捕捉的动态。

最后，随机意外事件测试了模型对不确定性的韧性以及其对意外升级的推理能力；鉴于误判在核危机中的历史作用，这是一项至关重要的能力。

成为VIP会员查看完整内容

相关内容

AI与军事

关注 1320

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《联合目标打击周期中人工智能决策支持系统的应用：挑战、风险及“人”的维度》2026最新45页报告

专知会员服务

29+阅读 · 2月6日

《人工智能将如何重塑未来战争中的四项基本竞争》美智库2026最新79页报告

专知会员服务

35+阅读 · 1月24日

《军事领域的AI革命：人工智能将如何重塑未来战争》美智库最新最新85页报告

专知会员服务

37+阅读 · 2025年7月5日

《设定人工智能武器在现代战争形态演变中的边界》最新报告

专知会员服务

39+阅读 · 2025年4月26日

《核武器与人工智能：技术前景与现实挑战》

专知会员服务

21+阅读 · 2025年3月21日

《人工智能与影响力作战：最新趋势》2024最新39页报告

专知会员服务

45+阅读 · 2024年6月11日

大型语言模型+兵棋推演结合《军事和外交决策中语言模型的升级风险》2024最新67页

专知会员服务

109+阅读 · 2024年1月14日

《武器系统中的人工智能》2023最新100页报告

专知会员服务

148+阅读 · 2023年12月13日

《降低人工智能对军事决策优势的风险》2023最新39页报告

专知会员服务

116+阅读 · 2023年4月20日

推荐！《用于兵棋推演和建模的人工智能》兰德智库2022最新16页论文

专知会员服务

105+阅读 · 2022年11月13日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

52+阅读 · 2022年11月14日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

37+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

101+阅读 · 2022年10月17日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

84+阅读 · 2022年9月24日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

87+阅读 · 2022年7月29日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

72+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

97+阅读 · 2022年3月7日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

332+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

41+阅读 · 2014年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

74+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

41+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Insidious Imaginaries: A Critical Overview of AI Speculations

Arxiv

0+阅读 · 2月19日

Decoding the Human Factor: High Fidelity Behavioral Prediction for Strategic Foresight

Arxiv

0+阅读 · 2月19日

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Arxiv

0+阅读 · 2月16日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月15日

Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication

Arxiv

0+阅读 · 2月12日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

0+阅读 · 2月2日

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Arxiv

0+阅读 · 1月30日

Replicating Human Motivated Reasoning Studies with LLMs

Arxiv

0+阅读 · 1月22日

How malicious AI swarms can threaten democracy: The fusion of agentic AI and LLMs marks a new frontier in information warfare

Arxiv

0+阅读 · 1月22日

Expanding External Access To Frontier AI Models For Dangerous Capability Evaluations

Arxiv

0+阅读 · 1月17日

VIP会员