在安全至上的军事应用中进行自主部署。然而,现有基准测试存在结构性盲点,系统性地高估了模型在实际战术场景中的能力。现有框架通常忽略基于国际人道法的严格法律约束,省略边缘计算限制,缺乏对战争迷雾的鲁棒性测试,并且未能充分评估模型的显式推理能力。为应对这些缺陷,提出了WARBENCH,一个综合评估框架,它建立了一个基础战术基线,并包含四个独立的压力测试维度。通过对九个主流模型在136个高保真历史想定上进行的大规模实证评估,揭示了严重的结构性缺陷。首先,在复杂地形和高力量不对称条件下,基线战术推理能力系统性崩溃。其次,虽然顶尖闭源模型能够维持功能性合规,但针对边缘计算优化的小型模型暴露出极高的操作风险,其违反法律比率接近70%。此外,在4位元量化条件下,模型性能发生灾难性下降,并出现系统性信息丢失。相反,明确的推理机制可充当极为有效的结构性防护,防止无意违规。最终,这些发现表明,当前模型本质上仍未做好在高风险战术环境中进行自主部署的准备。

通过对九个主流模型进行大规模实证评估,揭示了先前基准测试完全遗漏的严重且系统性的能力缺陷。主要贡献总结如下:

• 一个基于真实冲突的全新基准数据集:引入了一个高保真数据集,包含136个完全源自二战后真实历史战例的战术想定。该数据集弥合了抽象兵棋推演与现代冲突现实之间的关键鸿沟。 • 一个综合的多维度评估框架:提出了一个四维度测试架构,系统性地评估AI系统的基础战术准确性之外的能力。该框架为军事AI安全性和作战就绪度建立了新的标准化评估准则。 • 对架构差异的实证验证:评估揭示了持续的能力分层现象,即闭源的顶尖模型系统性优于开源模型。证明,当面对复杂地形动态和高度不对称的力量部署时,开源模型会遭受严重的推理能力退化。 • 关键操作漏洞的识别:证明,基本的战术决策能力受到现实部署约束的严重损害。具体而言,实验证实,法律合规性、硬件量化限制、系统性信息降级以及显式推理架构从根本上决定了部署模型的可靠性。

成为VIP会员查看完整内容
8

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《军事大语言模型的拒绝率测量与消除》
专知会员服务
12+阅读 · 3月13日
《提示战争:大语言模型如何决定军事干预》报告
专知会员服务
31+阅读 · 2025年12月3日
《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
55+阅读 · 2025年11月18日
大语言模型基准综述
专知会员服务
26+阅读 · 2025年8月22日
大模型时代下的智能空战指挥决策问题
专知会员服务
27+阅读 · 2025年6月21日
《基于大语言模型的军事不确定场景决策:模拟研究》
专知会员服务
51+阅读 · 2025年4月26日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
21+阅读 · 2024年10月29日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
人工智能技术在军事领域的应用思考
专知
45+阅读 · 2022年6月11日
有关军事人机混合智能的再再思考
人工智能学家
20+阅读 · 2019年6月23日
国家自然科学基金
333+阅读 · 2017年12月31日
国家自然科学基金
119+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
38+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
超越技术:伊朗冲突中的“战争方式”
专知会员服务
11+阅读 · 4月1日
军事决策大语言模型综合评价基准
专知会员服务
8+阅读 · 4月1日
《美军混合航空器军用适航认证路线图》84页
专知会员服务
7+阅读 · 4月1日
量子无人机与未来军事战争
专知会员服务
12+阅读 · 4月1日
迈向医学人工智能科学家
专知会员服务
11+阅读 · 4月1日
无人机尚未在乌克兰赢得战斗:西方考量
专知会员服务
12+阅读 · 3月31日
《军事网络数据包拦截技术研究》
专知会员服务
11+阅读 · 3月31日
《作战决策自动化支持系统文献综述》
专知会员服务
15+阅读 · 3月31日
相关VIP内容
《军事大语言模型的拒绝率测量与消除》
专知会员服务
12+阅读 · 3月13日
《提示战争:大语言模型如何决定军事干预》报告
专知会员服务
31+阅读 · 2025年12月3日
《战术决策智能:大语言模型驱动的动态武器目标分配》
专知会员服务
55+阅读 · 2025年11月18日
大语言模型基准综述
专知会员服务
26+阅读 · 2025年8月22日
大模型时代下的智能空战指挥决策问题
专知会员服务
27+阅读 · 2025年6月21日
《基于大语言模型的军事不确定场景决策:模拟研究》
专知会员服务
51+阅读 · 2025年4月26日
《军事危机模拟中语言模型自由决策不一致性度量》
专知会员服务
21+阅读 · 2024年10月29日
相关基金
国家自然科学基金
333+阅读 · 2017年12月31日
国家自然科学基金
119+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
38+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员