《ARMOR 2025：一个面向军事领域的基准，用于评估大语言模型安全性》

大语言模型目前正被探索用于需要可靠且合法合规的决策支持的国防应用领域。它们在提升军事背景下的决策制定、协调和作战效率方面也拥有巨大潜力。这些用途要求评估方法能够反映指导真实军事行动的条令标准。现有的安全性基准主要关注普遍的社会风险，并未测试模型是否遵循管辖真实军事行动的法律和伦理规则。为填补这一空白，推出了ARMOR 2025，这是一个基于三项核心军事条令——《战争法》、《交战规则》和《联合道德条例》——构建的军事对齐安全性基准。从这些来源中提取条令文本，并生成保留每条规则本意的多项选择题。该基准通过一个参考观察-判断-决策-行动决策框架构建的分类法来组织。这种结构能够对军事相关决策类型的准确性和拒绝能力进行系统性测试。该基准具有结构化的12类分类法、519个基于条令的提示词，并应用于对21个商用大语言模型的严格评估程序。评估结果揭示了模型在军事应用安全性对齐方面的关键差距。

大语言模型通过革新自然语言理解、翻译和信息检索，已成为日常生活中的基础性技术。其快速发展引起了国家安全和国防应用领域日益增长的兴趣。在这些场景中，模型可以协助任务规划和情报分析。此类应用的利害关系非常重大。一个误解武力使用规则或在作战环境中提供误导性指导的模型，可能导致非法行动、任务失败或人员伤亡。为此，大量研究专注于开发安全性基准，以识别潜在危害并评估大语言模型的行为是否符合伦理和社会预期。近期的政策文件也反映了这种关切。美国国防部将人工智能认定为未来军事能力的关键赋能因素，并强调安全、负责任采纳的必要性。行政指令要求人工智能系统在其设计和部署上是安全、可靠和值得信赖的。

在这项工作中，推出了ARMOR 2025，这是一个面向军事领域的大语言模型安全性基准，旨在评估模型在防御和任务关键型场景中的行为。我们的基准基于美国已确立的防务指南，包括《战争法》、《交战规则》和《联合伦理条例》。选择这些框架是因为它们代表了管辖现代军事行动的基础法律和伦理标准。《战争法》阐述了区分、比例和军事必要性等关键原则，这些原则规范了武装冲突期间的行为。《交战规则》定义了何时以及如何使用武力，确保战术行动保持在授权指令范围内。《联合伦理条例》将军人的职业责任法典化，强调合法行为、诚信和问责制。通过将我们的基准锚定在这些条令上，ARMOR 2025确保了大语言模型安全性评估与指导军事环境中人类决策的原则保持一致。

ARMOR 2025是通过从原始资料中提取条令文本，并生成保留每条规则本意的多项选择题来构建的。这些问题形成了一个结构化的十二类分类法，涵盖了伦理行为和交战规则的核心方面。该基准包含519个基于条令的提示词，并支持对准确性和拒绝能力进行系统性测试。评估了二十一个商业和开源语言模型，并观察到它们在遵循条令要求的能力上存在显著差异。总之，我们的贡献如下：

指出了现有大语言模型安全性基准的根本局限性，并证明它们未能涵盖管辖合法、合乎伦理的军事行动的规则。
推出了ARMOR 2025，这是一个基于《战争法》、《交战规则》和《联合道德条例》等权威条令构建的基准，并通过观察-判断-决策-行动框架进行结构化，以反映军事决策制定的认知需求。
构建了一个包含519个基于条令的多项选择题的数据集，涵盖十二个类别分类法。
对二十一个商业和开源语言模型进行了大规模评估，并揭示了在对齐方面存在的系统性缺陷，这证明了在任务关键型场景中部署前进行领域特定评估的必要性。

成为VIP会员查看完整内容