通用大语言模型处理自然语言请求并向用户返回可靠输出的能力是革命性的。然而,这需要付出巨大的计算能力、可靠的网络连接和时间的代价。本研究创建了一个名为HIVEMIND的系统,探索了在开源框架AutoGen中使用多智能体开源大语言模型(Llama3.1和Mistral-small),以促进多个大语言模型智能体之间的通信。每个智能体专门负责流程中的特定任务,从而为在离线(物理隔离)环境中提升大语言模型性能提供了一种替代方案。通过适当的架构调优,结果显示,三智能体配置在解决、执行和调试代码挑战方面实现了最佳效能。在中等和困难的代码挑战上,三智能体的Mistral-small模型表现更优,而计算资源的增加相对有限。HIVEMIND系统目前即可部署在舰船及其他离线军事环境中,以增强大语言模型在辅助开发人员进行软件创建和代码问题解决方面的性能,每次安装使用现成组件成本为3,199美元,或为300艘舰船部署两套HIVEMIND系统的成本为200万美元。

研究目标与贡献

本研究的核心目标是探究多智能体框架和各种实现超参数能否提高大语言模型作为编码助手的性能。这通过在离线环境中使用本地模型实现。研究假设:多智能体大语言模型能否利用不同的模型和团队来提高输出性能,同时降低成本并提升速度?

本研究探讨的研究问题包括:

• 专业的开源模型能否比最先进的通用大语言模型表现更优?

• 多智能体通信能否提高性能?

• 多智能体大语言模型中需要哪些具体的角色?

• 多智能体大语言模型的理想数量是多少?

• 每个多智能体大语言模型的理想上下文(提示)是什么?

• 从测试向量开始进行代码生成能否提高性能?

• 经过调优的多智能体大语言模型能否调试程序代码?

• 经过调优的多智能体大语言模型能否提供离线(物理隔离)调试?

• 多智能体方法能否推广到其特定编程用例之外并表现良好?

• 在简单测试案例上表现良好的多智能体大语言模型能否在更困难的测试案例上表现良好?

• 表现良好的多智能体大语言模型在执行时间、中央处理器、内存和图形处理器功耗方面如何比较?

本文共由六章组成。除第1章引言外,第2章介绍了当前相关工作,包括大语言模型基础、多智能体框架及其他多智能体系统。第3章讨论了实验设计、框架架构和实现。第4章结合额外测试分析了实验结果。第5章讨论了实验带来的启示和可立即产生影响的作战应用。最后,第6章为该领域潜在的未来工作提出了建议。

独特的军事用例要求大语言模型具备与商用大语言模型不同的属性。由于军事行动可能在恶劣环境中进行,军用大语言模型不能需要强大的计算能力、网络访问或大量时间来运行。此外,许多商用大语言模型设有信任与安全访问限制,以防止大语言模型创建或促成有害内容。然而,军事用例可能需要这些能力来执行军事行动。使用多智能体大语言模型有助于解决这些独特的限制。本项目专注于开发一种框架,以利用多智能体大语言模型和各种开源模型,提高大语言模型在特定任务上的性能,从而达到或超越顶尖通用大语言模型的水平。

成为VIP会员查看完整内容
10

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
61+阅读 · 2025年3月28日
大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
59+阅读 · 2024年9月6日
《国防大型语言模型:挑战与机遇》最新70页报告
专知会员服务
84+阅读 · 2024年8月23日
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
139+阅读 · 2024年2月6日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月21日
VIP会员
最新内容
美军夺取伊朗离岸岛屿分析:高风险,低收益
专知会员服务
7+阅读 · 4月10日
将生成式人工智能整合进军事战术决策中
专知会员服务
9+阅读 · 4月10日
美国2026最新发布《人工智能国家政策框架》
专知会员服务
7+阅读 · 4月10日
大模型错因诊断分析
专知会员服务
5+阅读 · 4月9日
视频生成基础模型进展
专知会员服务
7+阅读 · 4月9日
相关VIP内容
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
61+阅读 · 2025年3月28日
大语言模型智能体
专知会员服务
98+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
59+阅读 · 2024年9月6日
《国防大型语言模型:挑战与机遇》最新70页报告
专知会员服务
84+阅读 · 2024年8月23日
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
139+阅读 · 2024年2月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
42+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员