在安全至上的军事应用中进行自主部署。然而,现有基准测试存在结构性盲点,系统性地高估了模型在实际战术场景中的能力。现有框架通常忽略基于国际人道法的严格法律约束,省略边缘计算限制,缺乏对战争迷雾的鲁棒性测试,并且未能充分评估模型的显式推理能力。为应对这些缺陷,提出了WARBENCH,一个综合评估框架,它建立了一个基础战术基线,并包含四个独立的压力测试维度。通过对九个主流模型在136个高保真历史想定上进行的大规模实证评估,揭示了严重的结构性缺陷。首先,在复杂地形和高力量不对称条件下,基线战术推理能力系统性崩溃。其次,虽然顶尖闭源模型能够维持功能性合规,但针对边缘计算优化的小型模型暴露出极高的操作风险,其违反法律比率接近70%。此外,在4位元量化条件下,模型性能发生灾难性下降,并出现系统性信息丢失。相反,明确的推理机制可充当极为有效的结构性防护,防止无意违规。最终,这些发现表明,当前模型本质上仍未做好在高风险战术环境中进行自主部署的准备。
通过对九个主流模型进行大规模实证评估,揭示了先前基准测试完全遗漏的严重且系统性的能力缺陷。主要贡献总结如下:
• 一个基于真实冲突的全新基准数据集:引入了一个高保真数据集,包含136个完全源自二战后真实历史战例的战术想定。该数据集弥合了抽象兵棋推演与现代冲突现实之间的关键鸿沟。 • 一个综合的多维度评估框架:提出了一个四维度测试架构,系统性地评估AI系统的基础战术准确性之外的能力。该框架为军事AI安全性和作战就绪度建立了新的标准化评估准则。 • 对架构差异的实证验证:评估揭示了持续的能力分层现象,即闭源的顶尖模型系统性优于开源模型。证明,当面对复杂地形动态和高度不对称的力量部署时,开源模型会遭受严重的推理能力退化。 • 关键操作漏洞的识别:证明,基本的战术决策能力受到现实部署约束的严重损害。具体而言,实验证实,法律合规性、硬件量化限制、系统性信息降级以及显式推理架构从根本上决定了部署模型的可靠性。