《任务中心化指标：提升国防行动中人工智能系统的可靠性与稳健性》最新报告

随着各组织迅速采用人工智能解决方案，许多组织狭隘地聚焦于模型开发，而忽视了可能损害安全与信任的更广泛治理关切。安全部门意识到，复杂的人工智能架构给军事系统引入了新的脆弱性，可能增加信息技术系统遭受网络攻击的易感性。他们与任务领导者一样，认识到需要将风险偏好与创新目标对齐。本文提出了一个用于保障人工智能解决方案安全的概念框架——专为必须从高于模型参数的层面评估和缓解风险的军事领导层量身定制。

本文目标是提供一种视角，说明军事领导者如何请求和处理做出关于人工智能的重要安全决策所需的信息，例如是否批准某个人工智能系统在战场使用。虽然延迟、准确性和模型吞吐量是理解人工智能性能的关键指标，但它们不足以提供有意义的监督能力；尤其是在人工智能面临更广泛的网络威胁攻击面的情况下。领导者应与其开发和技术团队合作，定义能够为其决策提供信息，并能协调数据科学、工程和任务保障团队间努力的“以任务为中心”的指标。

概念框架

为军事行动实现有韧性且可信赖的人工智能，需要的不仅仅是精密的技术防御；它需要技术开发团队与任务利益相关方之间持续的协作。先前概述的目标——区分自然数据漂移与蓄意数据投毒、随时间推移监控模型完整性以及将人工智能嵌入野战行动——无法孤立实现。开发团队拥有实施和解读复杂技术指标的专长。然而，这些指标通常与作战实际缺乏共鸣：它们以抽象的统计术语衡量模型的不确定性或偏差，这对于最终授权和采用人工智能系统的军官、分析师和高级决策者而言是不透明的。如果未被转换为与任务相关的语言，风险的“技术信号”将与影响部署和政策的决策过程脱节。在以下章节中，我们将探讨开发团队如何能与前线人员及指挥中心决策者携手合作，以建立对模型风险、能力的理解，并最终校准信任。

作战人员定义的威胁模型 – “作战人员看到了什么？” 此初始阶段涉及从最接近作战现实的人员那里系统性地收集见解。当一个威胁难以用传统的人工智能性能或技术指标量化时，第一步应是构建一个稳健的威胁模型——借鉴自网络安全实践——以系统化地定义对手、其目标和潜在的攻击向量。一个全面的威胁模型应考虑攻击者的目标、知识、能力和策略，并将依赖来自战场的见解。在我们的示例中，这些见解提供了有助于区分数据投毒威胁与预期数据漂移的背景信息。例如，安全运营中心分析师可能注意到，一股可疑流量突发恰好与一次计划的网络压力测试同时发生，或者登录行为的细微变化似乎是攻击者精心策划的，而非真实用户行为漂移的结果。此层面并非让这些观察停留在非正式层面，而是将其结构化为定性的事件日志。此记录形成了一个丰富的、可从中汲取见解的“地面实况”背景信息库。
语境转换 – “将战场见解转化为信号，并利用信号驱动战场见解。” 需要将两种基本的翻译流程制度化，以弥合技术与职能团队之间的鸿沟。首先，技术到功能的转换是必要的，以便使复杂的“人工智能健康”指标对非技术决策者而言具有可操作性。例如，一个升高的预期校准误差得分不应仅仅被重述为“模型校准错误”，而应表述为“模型的预测显示出置信度与正确性之间日益加剧的不匹配”。这类似于士兵以不当的确定性报告目标识别。其次，功能到技术的翻译流程同样关键：任务利益相关者的关切和观察，决定了开发团队跟踪哪些指标以及如何解读它们。当作战或安全领导人对人工智能赋能的传感器网络中的数据可信度表示关切时，这一输入应传导至模型评估中。没有这种反馈，开发团队可能会过度优化抽象的性能指标，而忽略了对系统部署者最为重要的脆弱性指标。通过将这些反馈循环正式化，开发过程不再是一种单向交接，而更像是一种协同演进，其中技术工作不断受到功能性关切的引导，而功能性信任则因可解释的技术报告得到加强。一个简单的界面或现场报告，军官可以在其中标注“因x、y、z原因显得过于自信”或“对相同问题给出不同答案”，可以直接映射到精炼的指标。
指标设计与原型构建 – “构建以任务为中心的指标。” 这种转换使得任务利益相关者能够将异常情况解释为作战风险，而非不透明的统计假象，从而能够就何时应信任、核实或覆盖模型输出提出有针对性的问题。建立这种翻译流程意味着在技术仪表板中嵌入以任务为中心的指标，这些指标能够为决策者提供对系统可靠性的理解，并指导监督和验证的资源分配。通过这种方式，作战信号转化为可测试的指标，并可制度化地纳入评估流程。例如，如果一个人工智能模型开始建议与标准战术相悖的不安全车队路线，作战人员除了为可能引发错误的大规模作战变化（例如暗示良性漂移）提供背景信息外，还可以将其标记为错误。然而，如果错误似乎是突发的或由特定输入（潜在后门）触发，这些可以基于被标记输出中的已知模式，为更战术性的评估提供信息。关键的是，任务利益相关者并未被边缘化——他们审查指标原型，以验证其是否捕捉到了他们所描述的作战现实。这种协同设计有助于确保指标既反映技术严谨性，又具有任务相关性。
验证与校准 – “它有效吗？” 建议的指标在嵌入生产系统评估之前需要进行验证。这涉及重放历史上的投毒和漂移事件，并分析新指标的表现：它们是否能区分对抗性活动与良性漂移？它们是否过于敏感或过于保守？在此阶段，任务分析师和机器学习工程师校准阈值——即指标触发警报的敏感度水平。作战人员参与其中以避免可能使系统过载的误报，而数据科学家则确保指标仍能捕捉到细微的投毒模式。正是在此环节，人类的判断将实验性指标转化为可操作的、经过调整的信号。
操作集成 – “部署与扩展。”** 经验证的指标随后被集成到实时的MLOps流程中。它们成为仪表板、漂移检测器和自动重训练触发器的一部分。利益相关方和数据科学家为这些指标如何影响系统行为定义“分诊”规则：哪些警报直接进入自动缓解流程，哪些升级至人工审查，以及哪些可以被完全抑制。其结果是，操作人员不再被淹没在每个异常之下；系统过滤掉常规的漂移事件，仅呈现最不明确或与任务最相关的信号。此阶段将协作操作化，将人类的洞察转化为可扩展、可部署的过滤器。
持续反馈循环 – “随时间推移进行完善。” 此过程需要迭代性的关注与完善。每个确实送达操作人员的模糊案例，不仅会被裁决——其信息还会被反馈到流程中。分析师记录案例被判定为对抗性或良性的原因，为风险模型输入新的背景信息。数据科学家审查这些边缘案例，以改进现有指标或在对手演进时设计全新的指标。这个持续进行的循环，将“人在回路”从一个持续的警报裁决瓶颈，转变为一种度量标准演进的伙伴关系，有助于确保系统检测投毒的能力随时间推移变得更加敏锐和自主。