来自英国和美国的科学家测试并探讨了在战场上,医护人员需要具备何种条件才会将高风险决策委托给人工智能。
来自英国国防科学技术实验室的专家们正与美国国防高级研究计划局合作,利用该局“关键时刻”基础研究项目开发的硬件和方法论进行研究。
DARPA的“关键时刻”研究项目旨在探究人工智能与个体的匹配程度,是否会影响该个体在高风险情况下将决策委托给人工智能的意愿。这意味着要将人类的偏好和优先级编码到人工智能中。
人工智能系统并非天然与人类保持一致(它们不像人类那样思考或行事),并且目前尚无任何测量人类决策的方法。这就引出了一个问题:如何使人工智能与人类对齐?“关键时刻”项目旨在回答这个问题,并开发实现这种对齐的技术。
通过使用DARPA“关键时刻”项目的工具和方法,在英国进行的试验旨在探索人们在多大程度上更可能将决策委托给与自己具有相同决策属性和优先级的对象。试验还探讨了人工智能是否能够“对齐”个体的决策属性。
这些于2025年10月在科尔切斯特的梅尔维尔军营和牛津郡的布里兹诺顿进行的试验,其结果预期将有助于回答关于人工智能与信任的重大问题,以及理解这些问题如何能够挽救生命。
委托意愿的增加意味着,以经验丰富的医护人员的决策原则为指导,更大规模的人群能够被更快速地进行分诊和救治,从而挽救生命。
国防科学技术实验室人为因素专家Suzy表示: 进行了一项试验,这项试验一直在与DARPA的美国同事们合作进行,正在研究医疗分诊场景中的人机协作。
未来,预计将有更多信息涌入战斗人员。
非常关注战斗人员如何基于这些信息做出决策,以及人工智能系统如何可能在这方面提供帮助。
该试验探究了在医疗分诊场景中,当不存在“正确”答案时,哪些因素可能影响决策。这些因素包括:
• 功绩关注焦点(例如,医护人员会先救治受伤的攻击者还是受害者)
• 潜在的生活质量
• 生命数量
• 隶属关系关注焦点偏好(例如,在所有伤势相当的情况下,医护人员是否会优先救治具有相似军事背景的人员)
这一概念在模拟大规模伤亡场景中进行了测试。首先通过在桌面场景和虚拟现实中,对参与者的重要决策属性进行基线评估。随后,利用人工智能来模拟一位首席医护人员的思维过程,该人工智能的决策属性可能与参与者对齐,也可能不对齐。
参与者能够审阅人工智能的响应,并决定是否足够信任那位“医护人员”以委托其进行决策。直至演练结束后,他们才被告知是在与人工智能交互。
试验后的分析和发现将为国防科学技术实验室在“系统中的人”及“人工智能研究流中的人员影响”这两个研究领域内持续进行的研究提供信息,特别是“人机协作”和“决策制定”这两个方向。
https://www.gov.uk/government/news/military-medics-trial-ai-for-the-battlefield