军事决策大语言模型综合评价基准 - 专知VIP

会员服务 ·

11

军事防务 · 军事决策 · 大语言模型 ·

军事决策大语言模型综合评价基准

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在安全至上的军事应用中进行自主部署。然而，现有基准测试存在结构性盲点，系统性地高估了模型在实际战术场景中的能力。现有框架通常忽略基于国际人道法的严格法律约束，省略边缘计算限制，缺乏对战争迷雾的鲁棒性测试，并且未能充分评估模型的显式推理能力。为应对这些缺陷，提出了WARBENCH，一个综合评估框架，它建立了一个基础战术基线，并包含四个独立的压力测试维度。通过对九个主流模型在136个高保真历史想定上进行的大规模实证评估，揭示了严重的结构性缺陷。首先，在复杂地形和高力量不对称条件下，基线战术推理能力系统性崩溃。其次，虽然顶尖闭源模型能够维持功能性合规，但针对边缘计算优化的小型模型暴露出极高的操作风险，其违反法律比率接近70%。此外，在4位元量化条件下，模型性能发生灾难性下降，并出现系统性信息丢失。相反，明确的推理机制可充当极为有效的结构性防护，防止无意违规。最终，这些发现表明，当前模型本质上仍未做好在高风险战术环境中进行自主部署的准备。

通过对九个主流模型进行大规模实证评估，揭示了先前基准测试完全遗漏的严重且系统性的能力缺陷。主要贡献总结如下：

• 一个基于真实冲突的全新基准数据集：引入了一个高保真数据集，包含136个完全源自二战后真实历史战例的战术想定。该数据集弥合了抽象兵棋推演与现代冲突现实之间的关键鸿沟。 • 一个综合的多维度评估框架：提出了一个四维度测试架构，系统性地评估AI系统的基础战术准确性之外的能力。该框架为军事AI安全性和作战就绪度建立了新的标准化评估准则。 • 对架构差异的实证验证：评估揭示了持续的能力分层现象，即闭源的顶尖模型系统性优于开源模型。证明，当面对复杂地形动态和高度不对称的力量部署时，开源模型会遭受严重的推理能力退化。 • 关键操作漏洞的识别：证明，基本的战术决策能力受到现实部署约束的严重损害。具体而言，实验证实，法律合规性、硬件量化限制、系统性信息降级以及显式推理架构从根本上决定了部署模型的可靠性。

成为VIP会员查看完整内容

19

相关内容

军事防务

军事防务数据板块介绍：系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块，其核心在于整合全球新兴国防技术（军事人工智能、无人系统等）、热点案例（俄乌战争、美以伊战争）等方面的最新时讯、研究报告/论文、条令法规、案例分析，为战略研判、情报分析、决策支持等提供知识支撑。

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

17+阅读 · 5月7日

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

17+阅读 · 4月22日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

34+阅读 · 3月14日

《军事大语言模型的拒绝率测量与消除》

《军事大语言模型的拒绝率测量与消除》

专知会员服务

13+阅读 · 3月13日

《提示战争：大语言模型如何决定军事干预》报告

《提示战争：大语言模型如何决定军事干预》报告

专知会员服务

32+阅读 · 2025年12月3日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

58+阅读 · 2025年11月18日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

《基于大语言模型的军事不确定场景决策：模拟研究》

《基于大语言模型的军事不确定场景决策：模拟研究》

专知会员服务

52+阅读 · 2025年4月26日

大语言模型对武器系统自主性和准确性的影响：人工智能的前景

大语言模型对武器系统自主性和准确性的影响：人工智能的前景

专知会员服务

28+阅读 · 2025年2月12日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

21+阅读 · 2024年10月29日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

85+阅读 · 2022年9月24日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

82+阅读 · 2022年8月29日

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

专知

111+阅读 · 2022年8月20日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

46+阅读 · 2022年6月11日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

有关军事人机混合智能的再再思考

有关军事人机混合智能的再再思考

人工智能学家

21+阅读 · 2019年6月23日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

337+阅读 · 2017年12月31日

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

120+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

45+阅读 · 2014年12月31日

基于仿真大数据的信息化作战体系分析方法研究

国家自然科学基金

39+阅读 · 2013年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

96+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 4月28日

Benchmarking LLM-Driven Network Configuration Repair

Arxiv

0+阅读 · 4月24日

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Arxiv

0+阅读 · 4月23日

Policy-Aware Edge LLM-RAG Framework for Internet of Battlefield Things Mission Orchestration

Arxiv

0+阅读 · 4月10日

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Arxiv

0+阅读 · 4月3日

Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

Arxiv

0+阅读 · 3月30日

Leveraging Large Language Models for Trustworthiness Assessment of Web Applications

Arxiv

0+阅读 · 3月24日

WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making

Arxiv

0+阅读 · 3月22日

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

VIP会员

相关主题

大语言模型

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

2+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

2+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

5+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

6+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

7+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

5+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

11+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

专知会员服务

17+阅读 · 5月7日

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

17+阅读 · 4月22日

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

《军事场景上下文推理：大语言模型长上下文地理空间推理与规划能力基准测试》最新资料

专知会员服务

34+阅读 · 3月14日

《军事大语言模型的拒绝率测量与消除》

《军事大语言模型的拒绝率测量与消除》

专知会员服务

13+阅读 · 3月13日

《提示战争：大语言模型如何决定军事干预》报告

《提示战争：大语言模型如何决定军事干预》报告

专知会员服务

32+阅读 · 2025年12月3日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

58+阅读 · 2025年11月18日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

《基于大语言模型的军事不确定场景决策：模拟研究》

《基于大语言模型的军事不确定场景决策：模拟研究》

专知会员服务

52+阅读 · 2025年4月26日

大语言模型对武器系统自主性和准确性的影响：人工智能的前景

大语言模型对武器系统自主性和准确性的影响：人工智能的前景

专知会员服务

28+阅读 · 2025年2月12日

《军事危机模拟中语言模型自由决策不一致性度量》

《军事危机模拟中语言模型自由决策不一致性度量》

专知会员服务

21+阅读 · 2024年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

85+阅读 · 2022年9月24日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

82+阅读 · 2022年8月29日

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

推荐！【中文版】《人工智能和仿真技术在军事决策中的作用》北约技术报告

专知

111+阅读 · 2022年8月20日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

46+阅读 · 2022年6月11日

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

286页！【军事自主系统】NATO STO最新报告《军事地面自主系统的机动性评估方法和工具》

专知

54+阅读 · 2022年6月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

91+阅读 · 2022年4月17日

有关军事人机混合智能的再再思考

有关军事人机混合智能的再再思考

人工智能学家

21+阅读 · 2019年6月23日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

337+阅读 · 2017年12月31日

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

120+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

45+阅读 · 2014年12月31日

基于仿真大数据的信息化作战体系分析方法研究

国家自然科学基金

39+阅读 · 2013年12月31日

面向信息优势的预警信息系统综合效能评估研究与仿真验证

国家自然科学基金

21+阅读 · 2012年12月31日

基于训练效果的部队作战效能评估及作战计划制订方法研究

国家自然科学基金

96+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

相关论文

Learning-Based Automated Adversarial Red-Teaming for Robustness Evaluation of Large Language Models

Arxiv

0+阅读 · 4月28日

Benchmarking LLM-Driven Network Configuration Repair

Arxiv

0+阅读 · 4月24日

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Arxiv

0+阅读 · 4月23日

Policy-Aware Edge LLM-RAG Framework for Internet of Battlefield Things Mission Orchestration

Arxiv

0+阅读 · 4月10日

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Arxiv

0+阅读 · 4月3日

Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

Arxiv

0+阅读 · 3月30日

Leveraging Large Language Models for Trustworthiness Assessment of Web Applications

Arxiv

0+阅读 · 3月24日

WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making

Arxiv

0+阅读 · 3月22日

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Arxiv

0+阅读 · 3月10日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

微信扫码咨询专知VIP会员