当前,大型语言模型作为军事人员的助手,其实际用例、局限性及未来潜力仍是一个开放性问题。本文通过一项为期三个月的案例研究,呈现了一名空军人员与大型语言模型的互动及信任校准过程,涵盖其作为日常助手以及用于开发一款名为ROMAD-AI的战术军事应用。该研究采用了一种直观的、由人工智能生成的软件开发方法——即依赖技术新手通过自然语言指令对大型语言模型进行迭代式代码生成,而非由技术专家进行人工编程。研究揭示了行业精心策划的人工智能能力演示与作战现实之间的显著差距,这需要进行系统的信任校准和切合实际的范围管理。研究结果从作战和技术专长的双重视角进行分析,旨在为寻求有效整合人工智能的军事人员,以及为开发面向军事的人工智能系统的研究人员,提供实用指导。
本文为大型语言模型在军事环境中的应用提供了一个扎实的、基于作战的视角,通过其作为助手和软件开发工具的实际使用,既强调了其潜力,也指出了其局限性。计划开发的应用被命名为“远程操作模块增强设备(ROMAD-AI)”,这是一次旨在创建可用于战场的智能助手的尝试。这种关于自主威胁分析和实时战场集成的愿景,揭示了人工智能能力演示与实际实施复杂性之间的巨大鸿沟。该项目范围最终被迭代式地缩减为一项基础文档处理应用,这为当下寻求有效使用人工智能的操作人员,以及为未来系统开发的研究人员,都提供了至关重要的经验教训。
尽管范围有所变化,但该空军人员成功利用大型语言模型开发出了一款辅助应用,这展示了单个军人利用人工智能工具,无需外部供应商或专业技术知识,即可创建针对特定作战挑战的定制应用的变革潜力。这预示了军队未来处理技术解决方案的一种可能方式:从漫长的采购流程和对承包商的依赖,转变为由对战术需求有第一手了解的操作人员进行快速、自主的研发。
虽然我们证明了大型语言模型目前有能力协助非专业操作人员创建减轻其工作负担的定制应用,但其仍存在显著的缺点,这些缺点在军事环境中尤为重要。包括:未经审查代码的重大安全隐患、与其他持续更新的产品交互的大型语言模型代码的可移植性和适应性,以及应用在缺少或仅依赖人工智能生成的单元测试和功能测试情况下的准确性。