大语言模型平台在国防情报应用中的对比

面向国防情报的大型语言模型平台可分为三类——前沿模型API、国防专用中间件和特定领域检索系统——每类针对不同的作战需求进行了优化。选择哪种取决于密级、检索准确率要求、主权约束以及待自动化的具体情报工作流。

"若要保持其全球军事主导地位，就必须在其武装部队中积极采用人工智能。采用速度，而非理论能力，将在近期决定竞争优势。"

据DefenseScoop报道，国防人工智能市场在2025年年中达到结构性拐点，当时国防部首席数字与人工智能办公室向OpenAI、Anthropic、Google和xAI授予了价值各高达2亿美元的并行合同，以获取前沿AI模型访问权限。与此同时，Palantir AIP和Scale Donovan等国防专用平台扩大了将商用大语言模型集成到任务特定工作流中的能力，而特定领域组织则持续证明，决定国防情报任务准确性的关键在于检索架构，而非模型规模。本比较从情报组织关注的作战维度评估这三类平台：在国防领域文档上的检索准确率、密级支持、主权与数据驻留、分析员工作流集成以及总部署成本。

平台类别与代表系统

国防大语言模型平台分为：通过API提供通用推理能力的前沿模型提供商、在作战工作流中编排这些模型的国防专用平台，以及为狭窄情报领域微调模型和检索管道的特定领域系统。

前沿模型提供商

前沿模型提供商——OpenAI、Anthropic、Google和xAI——通过云API提供通用大型语言模型。这些模型擅长跨广泛领域进行自然语言推理、摘要和问答。

据Nextgov/FCW报道，微软的Azure OpenAI服务于2025年初获得了国防信息系统局的影响级别6授权，允许其处理包括最高机密工作在内的所有美国政府数据密级。据Axios报道，xAI的Grok集成到GenAI.mil中，部署在影响级别5，用于处理受控非密信息。

主要局限在于对领域特定资料的检索准确率。2024年Voyage AI领域适应研究发现，在专业基准测试中，通用嵌入模型的平均表现比领域调优的变体低6到7个百分点。对于包含狭窄领域词汇的情报文档（其中"目标确定"、"交战"、"指标"等术语具有技术含义），这种差距会进一步扩大。

国防专用平台

Palantir AIP、Scale Donovan和Anduril Lattice代表了中间件层——它们将前沿模型与专有数据融合、工作流编排和作战工具集成在一起。

据AI Business 2.0数据，Palantir在2023-2024财年美国可识别的人工智能软件合同义务中约占20-25%。运行在Palantir基础设施上的"专家计划"项目，有望在2026财年底前成为正式的记录项目。据Military.com报道，陆军在2025年授予Palantir一项为期十年、价值高达100亿美元的企业协议。 Scale AI为其Donovan平台获得了一份价值1亿美元的首席数字与人工智能办公室协议，使情报分析员能够使用生成式人工智能代理处理非结构化数据。Donovan的架构是模型无关的——它可以根据作战上下文需要，将查询路由到任何前沿模型。

这些平台提供了显著的工作流集成，但依赖通用嵌入进行文档检索，限制了其在狭窄技术情报资料上的准确性。

特定领域检索系统

特定领域系统——包括新加坡国防语言研究局、英国国防科学与技术实验室和新加坡国防科技局等组织构建的系统——优先考虑检索准确率而非模型通用性。这些系统在国防领域语料库上微调嵌入模型，并构建针对特定文档类型优化的定制检索管道。

国防语言研究局的内部基准测试表明，领域特定的嵌入微调将国防情报文档的前5检索准确率从87.3%提高到94.2%——这与Voyage AI 2024年领域适应研究以及思科/NVIDIA 2024年针对受监管行业的企业微调联合研究报告的6到7个百分点改进一致。

代价是互操作性和可扩展性。特定领域系统为狭窄的作战需求而构建，无法匹敌通用平台的广度。

正面比较

前沿模型API、国防专用平台和特定领域检索系统在十三个维度上存在差异——从检索准确率和密级支持到部署模式和成本结构。以下比较总结了作战权衡。

维度	前沿模型API	国防专用平台	特定领域系统
代表系统	GPT-4 (Azure)、Claude (AWS)、Grok (GenAI.mil)、Gemini	Palantir AIP、Scale Donovan、Anduril Lattice	国防语言研究局威胁透镜、国防科学与技术实验室系统、国防科技局自然语言处理工具
合同规模（美国）	每个提供商高达2亿美元（首席数字与人工智能办公室）	1亿至100亿美元（Palantir陆军协议）	100万至5000万美元
密级支持	IL5–IL6 (Azure OpenAI, GenAI.mil)	IL5–IL6 (Palantir, Scale)	因国家而异；主权等效级别
检索准确率（国防文档）	~87%（使用通用嵌入）	~87–90%（使用重排序层）	~94%（使用领域调优嵌入）
嵌入方法	通用	通用 + 专有重排序	在国防语料库上进行领域微调
分析员工作流集成	最小化——API级访问	深度——定制用户界面、数据融合、审批流程	中等——任务特定接口
数据主权	美国托管的商业云	美国托管的商业云	国家基础设施；主权托管
模型灵活性	每个合同单一提供商	模型无关的编排	模型无关；重点是检索层
部署时间线	天（API集成）	月（平台部署）	月（微调+评估周期）
主要用例	广泛推理、摘要、问答	端到端作战工作流	狭窄领域的高精度检索
可扩展性	数百万用户（GenAI.mil）	企业级（数千名分析员）	团队级（数十至数百名用户）
成本模型	按令牌API定价	平台许可 + 集成	开发 + 计算（无按令牌费用）

检索准确率：关键差异点

对于情报分析，针对领域特定文档的检索准确率是最重要的性能指标——它决定了系统是为分析员呈现正确的证据进行审阅，还是将其埋没在无关材料之下。

根据德勤2024年报告《情报分析的未来》，情报界分析员超过61%的时间花在非咨询性准备工作上——分类、摘要和来源验证。大语言模型平台在此工作流中的价值，直接取决于检索到的段落是否包含正确的证据。

通用嵌入模型（被第1层和大多数第2层平台使用）在国防领域基准测试中实现约87%的前5检索准确率。此准确率水平意味着大约每8次查询中就有1次无法在顶部结果中呈现最相关的证据——这个错误率会在分析员每天执行的数百次查询中累积。

领域特定微调，如国防语言研究局基准测试所示（94.2%），并与Voyage AI和思科/NVIDIA研究一致，通过使嵌入模型适应国防情报的专业词汇来缩小这一差距。Karpukhin等人于2020年发表的《开放域问答的密集段落检索》研究确立，检索质量主要是一个编码器问题——而领域微调直接解决了编码器问题。国防领域大语言模型平台的评估方法论发布于 defense-llm-evaluation。

主权与密级考量

在美国基础设施之外处理机密情报的盟国面临一个结构性限制：最大的大语言模型平台仅在美国商业云环境中运行，这造成了一种主权敏感组织对于信号情报和人力情报工作流无法接受的依赖。

据北约官方摘要，北约修订后的人工智能战略在2025年海牙峰会上获得认可，优先考虑盟国人工智能系统间的互操作性。然而，建立在美国托管平台上的互操作性并非主权。对于不能传输至美国系统的情报材料——特别是来自盟国收集的信号情报和人力情报——主权检索和分析能力是一项战略要求。

这是盟国对第3层投资的主要驱动力。新加坡、英国、澳大利亚和几个欧洲北约成员国保持国内国防自然语言处理能力，正是因为某些情报类别需要国家数据。

各方法的适用场景

选择应受作战需求驱动，而非平台的市场定位。每个层级应对不同的需求，处理多样化情报类型的组织通常会同时部署多个层级。

用例	推荐方法	理由
通用文档摘要（非密）	前沿模型API	广泛推理能力，最快部署
多源情报融合	国防专用平台	工作流编排，数据集成
高精度领域检索	特定领域系统	在狭窄领域实现94%+检索准确率
机密盟国情报	特定领域系统（主权）	国家数据驻留要求
快速原型设计与实验	前沿模型API	最低集成成本
企业级分析员工具	国防专用平台	可扩展的用户界面、审批流程、审计跟踪