随着人工智能赋能系统日益融入现代工作体系,政府机构也正将人工智能能力整合至其工作流程中。美战争部致力于开发一个结构完善、高效的评价流程,以识别并优先考虑其人工智能模型的应用场景。为实现人工智能在战争部系统中最有效的应用,评估流程应始于对候选人工智能用例的审查,清晰阐明其任务影响与技术风险,为后续筛选与投资决策提供依据。传统上,用例评估由人类领域专家执行,但此评估过程可能耗费大量人力与时间,且专家评估的差异可能导致非预期的偏差。大型语言模型的最新进展及其可用性,为增强专家评估流程以提升速度与可重复性提供了机遇,但大型语言模型亦存在其自身挑战,且其在战争部语境下与人类评估的一致性尚未得到检验。本文通过一项实证研究,使用一组精心筛选的战争部人工智能应用用例,对比了人类专家与大型语言模型增强的评估结果。团队为人类领域专家和经过提示的大型语言模型提供了具体指导,要求其根据实施可行性与任务影响标准对每个用例进行评分。通过分析人类与大型语言模型辅助评估的结果,研究了两组间的评估模式及异常值。结果表明,尽管基于大型语言模型的评估分数与人类专家评估者不同,但大型语言模型产生了与人类评估者相同的人工智能用例总体优先级排序。同时,在人类与基于大型语言模型的评估之间,观察到一种微弱但具有统计显著性的正相关。本研究结果为大型语言模型在结构化评估任务中的潜在用途与局限提供了洞见,并有助于为将人工智能辅助评估整合至战争部流程定义最佳实践,从而以有效且可重复的方式构建人工智能用例。

本研究基于麻省理工学院林肯实验室先前在制定优先级排序流程方面的工作,旨在确定利用人工智能实现该流程自动化的最佳实践。该优先级排序流程依赖于跨独立类别的具体用例分析。如表1所述,这些类别分为两个主要主题领域——实施可行性与任务影响。

表1. 用例评估类别描述

类别 描述
实施可行性
数据可用性 衡量数据对人工智能完成此用例的可发现性、可访问性、质量和可用性的指标。
AI模型可用性 衡量组织获取各种大型语言模型和AI模型以实施用例解决方案的指标。
团队AI技术专长 衡量负责为此用例实施AI能力的团队的技术能力和经验指标。
技术成熟度 衡量在其上实施AI解决方案的系统复杂度的指标,包括数据流的数量和种类、计算资源、范围、规模以及外部系统依赖性。
系统复杂度 衡量系统复杂度的指标,包括数据流的数量和类型、用户、输入和输出。
用户培训要求 用户为了能够为此用例使用AI实施所需的培训量。
采购、测试与批准 衡量在此用例中使用AI能力的采购、测试与批准复杂度的指标。
任务影响
在战争部整体任务中的相对任务影响 成功实施此用例对更广泛的组织任务的总体影响。
任务绩效改进 对AI能力的投资将在多大程度上影响用户完成此用例任务的能力。
任务对任务的依赖性 用户的成功或失败在多大程度上依赖于此用例所具备的能力。
引入的脆弱性/风险 使用此用例的AI能力可能在多大程度上导致完成任务的额外风险和脆弱性。
政策、数据漂移和不确定性问题 使用此用例的AI能力可能在多大程度上给任务的完成增加政策、数据漂移和不确定性问题。
用户体验 用户将在多大程度上信任此用例AI实施的输出结果。

成为VIP会员查看完整内容
2

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
美国战争部人工智能加速战略
专知会员服务
62+阅读 · 1月14日
《人工智能在军事行动作战规划过程中的应用可能性》
专知会员服务
35+阅读 · 2025年10月12日
美国防部政策的演变和人工智能在现代战争中的作用
专知会员服务
55+阅读 · 2024年7月1日
智能战争机器:军事中的人工智能
专知会员服务
61+阅读 · 2024年6月4日
《作战层面的人工智能》美国海军学院32页报告
专知会员服务
248+阅读 · 2022年12月17日
《人工智能在作战规划中的应用》北约科技组织18页论文
专知会员服务
150+阅读 · 2022年11月15日
国家自然科学基金
335+阅读 · 2017年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
13+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
16+阅读 · 5月1日
相关VIP内容
美国战争部人工智能加速战略
专知会员服务
62+阅读 · 1月14日
《人工智能在军事行动作战规划过程中的应用可能性》
专知会员服务
35+阅读 · 2025年10月12日
美国防部政策的演变和人工智能在现代战争中的作用
专知会员服务
55+阅读 · 2024年7月1日
智能战争机器:军事中的人工智能
专知会员服务
61+阅读 · 2024年6月4日
《作战层面的人工智能》美国海军学院32页报告
专知会员服务
248+阅读 · 2022年12月17日
《人工智能在作战规划中的应用》北约科技组织18页论文
专知会员服务
150+阅读 · 2022年11月15日
相关资讯
相关基金
国家自然科学基金
335+阅读 · 2017年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
43+阅读 · 2014年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
96+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员