通用大语言模型处理自然语言请求并向用户返回可靠输出的能力是革命性的。然而,这需要付出巨大的计算能力、可靠的网络连接和时间的代价。本研究创建了一个名为HIVEMIND的系统,探索了在开源框架AutoGen中使用多智能体开源大语言模型(Llama3.1和Mistral-small),以促进多个大语言模型智能体之间的通信。每个智能体专门负责流程中的特定任务,从而为在离线(物理隔离)环境中提升大语言模型性能提供了一种替代方案。通过适当的架构调优,结果显示,三智能体配置在解决、执行和调试代码挑战方面实现了最佳效能。在中等和困难的代码挑战上,三智能体的Mistral-small模型表现更优,而计算资源的增加相对有限。HIVEMIND系统目前即可部署在舰船及其他离线军事环境中,以增强大语言模型在辅助开发人员进行软件创建和代码问题解决方面的性能,每次安装使用现成组件成本为3,199美元,或为300艘舰船部署两套HIVEMIND系统的成本为200万美元。
本研究的核心目标是探究多智能体框架和各种实现超参数能否提高大语言模型作为编码助手的性能。这通过在离线环境中使用本地模型实现。研究假设:多智能体大语言模型能否利用不同的模型和团队来提高输出性能,同时降低成本并提升速度?
本研究探讨的研究问题包括:
• 专业的开源模型能否比最先进的通用大语言模型表现更优?
• 多智能体通信能否提高性能?
• 多智能体大语言模型中需要哪些具体的角色?
• 多智能体大语言模型的理想数量是多少?
• 每个多智能体大语言模型的理想上下文(提示)是什么?
• 从测试向量开始进行代码生成能否提高性能?
• 经过调优的多智能体大语言模型能否调试程序代码?
• 经过调优的多智能体大语言模型能否提供离线(物理隔离)调试?
• 多智能体方法能否推广到其特定编程用例之外并表现良好?
• 在简单测试案例上表现良好的多智能体大语言模型能否在更困难的测试案例上表现良好?
• 表现良好的多智能体大语言模型在执行时间、中央处理器、内存和图形处理器功耗方面如何比较?
本文共由六章组成。除第1章引言外,第2章介绍了当前相关工作,包括大语言模型基础、多智能体框架及其他多智能体系统。第3章讨论了实验设计、框架架构和实现。第4章结合额外测试分析了实验结果。第5章讨论了实验带来的启示和可立即产生影响的作战应用。最后,第6章为该领域潜在的未来工作提出了建议。
独特的军事用例要求大语言模型具备与商用大语言模型不同的属性。由于军事行动可能在恶劣环境中进行,军用大语言模型不能需要强大的计算能力、网络访问或大量时间来运行。此外,许多商用大语言模型设有信任与安全访问限制,以防止大语言模型创建或促成有害内容。然而,军事用例可能需要这些能力来执行军事行动。使用多智能体大语言模型有助于解决这些独特的限制。本项目专注于开发一种框架,以利用多智能体大语言模型和各种开源模型,提高大语言模型在特定任务上的性能,从而达到或超越顶尖通用大语言模型的水平。