《大语言模型推理战争迷雾》最新36页

人工智能能否在战争演变为历史之前，对其发展轨迹进行推理和预测？分析这种能力是困难的，因为回顾性地缘政治预测深受训练数据泄露问题的干扰。通过对2026年中东冲突早期阶段进行一项基于时间节点的案例研究来应对这一挑战，该冲突是在当前前沿模型训练截止日期之后爆发的。构建了11个关键时间节点、42个节点特定的可验证问题以及5个一般性探索问题，要求模型仅依据每个时间点可公开获得的信息进行推理。这种设计极大地缓解了对训练数据泄露的担忧，创造了一个非常适合研究模型如何在战争迷雾下分析持续危机的环境，并据所知，首次对大型语言模型在持续地缘政治冲突中的推理进行了基于时间节点的分析。分析揭示了三个主要发现。首先，当前最先进的大型语言模型在此环境下常常展现出强大的战略推理能力，超越了表面的政治辞令，转而关注潜在的动机、威慑压力和物质约束。其次，这种能力在不同领域并不均衡：模型在具有经济和后勤结构性的情境中比在政治模糊的多行为体环境中更为可靠。最后，模型的叙事会随时间演变，从早期对快速控制的预期，转向更多关于区域僵持和消耗性降级的系统性解释。由于在撰写本文时冲突仍在持续，这项工作可以作为模型在持续地缘政治危机中进行推理的一个档案快照，使未来研究能够避免回顾性分析的事后偏见。

关键发现。 • 大型语言模型在不确定性下常常展现出强大的战略推理能力。在多个时间节点上，模型的回应超越了政治辞令，转而关注军事沉没成本、威慑压力和物质约束等因素；在几个早期节点，一些模型甚至在动能冲突开始前就预见到了升级。• 其优势是领域特定的而非统一的。模型在推理结构性经济动态和物质约束时最为可靠，但在涉及信号传递、领导层不稳定和多行为体战略互动的高度模糊的政治环境中则不那么一致。• 其叙事随冲突发展而演变。随着冲突持续展开和新信息不断出现，模型逐渐脱离早期对快速控制的预期，并越来越多地趋同于更长、更具系统性的冲突解释。

主要贡献。 • 一项关于战争迷雾下大型语言模型推理的基于时间节点的案例研究。据所知，这是首批在严格的时间信息约束下（此时结果仍未知，模型必须在实时不确定性下进行推理），检验大型语言模型如何分析一场持续战争情景的研究之一。• 一个用于分析模型在此持续情景中推理的结构化框架。构建了包含11个关键时间节点的时间线，并设计了涵盖军事升级、经济冲击波和政治信号传递的42个推理探针，从而能够纵向观察模型分析如何随着新信息的出现而演变。• 一份无最终结果的大型语言模型推理档案快照。保存了在每个时间节点生成的模型回应，作为实时不确定性下推理的记录，为该冲突的持续发展及未来研究提供了回顾比较的参考点。