Large Language Models are increasingly being considered for deployment in safety-critical military applications. However, current benchmarks suffer from structural blindspots that systematically overestimate model capabilities in real-world tactical scenarios. Existing frameworks typically ignore strict legal constraints based on International Humanitarian Law (IHL), omit edge computing limitations, lack robustness testing for fog of war, and inadequately evaluate explicit reasoning. To address these vulnerabilities, we present WARBENCH, a comprehensive evaluation framework establishing a foundational tactical baseline alongside four distinct stress testing dimensions. Through a large scale empirical evaluation of nine leading models on 136 high-fidelity historical scenarios, we reveal severe structural flaws. First, baseline tactical reasoning systematically collapses under complex terrain and high force asymmetry. Second, while state of the art closed source models maintain functional compliance, edge-optimized small models expose extreme operational risks with legal violation rates approaching 70 percent. Furthermore, models experience catastrophic performance degradation under 4-bit quantization and systematic information loss. Conversely, explicit reasoning mechanisms serve as highly effective structural safeguards against inadvertent violations. Ultimately, these findings demonstrate that current models remain fundamentally unready for autonomous deployment in high stakes tactical environments.


翻译:大型语言模型正日益被考虑部署于安全关键的军事应用场景。然而,现有基准存在结构性盲区,系统性地高估了模型在真实战术场景中的能力。当前框架通常忽视基于国际人道法的严格法律约束,忽略边缘计算限制,缺乏对战争迷雾的鲁棒性测试,且未能充分评估显式推理能力。针对这些脆弱性,我们提出WARBENCH——一个综合评估框架,建立了基础战术基线及四个不同的压力测试维度。通过对九个领先模型在136个高保真历史场景中的大规模实证评估,我们揭示了严重的结构性缺陷。首先,基础战术推理在复杂地形与高兵力不对称条件下系统性崩溃。其次,尽管最先进闭源模型保持功能合规,但边缘优化的小型模型暴露出极端操作风险,违法率接近70%。此外,模型在4比特量化与系统性信息丢失情况下出现灾难性性能退化。相反,显式推理机制可作为防范无意违规的高效结构性保障。最终,这些发现表明,当前模型在高风险战术环境中仍远未做好自主部署的准备。

0
下载
关闭预览

相关内容

军事决策大语言模型综合评价基准
专知会员服务
20+阅读 · 4月1日
《军事大语言模型的拒绝率测量与消除》
专知会员服务
14+阅读 · 3月13日
《提示战争:大语言模型如何决定军事干预》报告
专知会员服务
33+阅读 · 2025年12月3日
《基于大语言模型的军事不确定场景决策:模拟研究》
专知会员服务
54+阅读 · 2025年4月26日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
46+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
46+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员