自然语言接口可使非专业操作者更便捷地使用集群机器人技术,但其必须将模糊的用户意图转化为可执行的集群行为,同时避免生成不支持的动作、格式错误的程序或不安全的计划。本文提出CommandSwarm,一个安全感知的语言到行为树流水线,用于从语音或文本命令生成XML行为树。该系统结合了多语言翻译、命令级安全过滤、约束提示、经LoRA适配的大语言模型,以及针对可执行集群原语白名单的确定性解析器验证。我们在零样本、单样本和双样本提示下,对十一个参数量为6.7B至14B的开源大语言模型(均使用4位量化)在代表性集群控制场景中进行了评估。Falcon3-Instruct-10B和Mistral-7B-v3是提示工程效果最强的候选模型,在少样本设置下达到了0.60以上的BLEU分数和高语法有效性。在包含2,063个示例的合成指令-行为树语料库上对Falcon3-Instruct-10B进行LoRA适配后,其零样本BLEU分数从0.267提升至0.663,ROUGE-L从0.366提升至0.692,解析器接受的语法有效性从0%提升至72%。翻译实验进一步表明,SeamlessM4T v2-large和EuroLLM-9B为多语言前端提供了最佳的质量-延迟权衡。结果表明,当嵌入经过验证的系统流水线时,紧凑、量化、领域适配的大语言模型能够生成有用的集群行为树。同时,结果也表明解析器接受和安全过滤仍然是必要的执行关卡;仅凭生成质量不足以实现自主部署。

本文做出了四项贡献:1) 一个面向集群的安全感知语言到行为树架构。我们定义了一个涵盖翻译、安全过滤、基于大语言模型的行为树合成以及中间件级解析/执行的CommandSwarm四层流水线。2) 对紧凑型开源大语言模型的系统性基准测试。我们在零样本、单样本和双样本提示下评估了十一个6.7B至14B参数量的模型,所有模型均量化为4位以进行实际比较。3) 一个合成指令-行为树适配流水线。我们构建了一个包含2,063个示例的合成语料库,并使用LoRA适配Falcon3-Instruct-10B,显著提升了零样本生成质量和语法有效性。4) 一个多语言前端评估。我们比较了Whisper和SeamlessM4T用于语音翻译,以及EuroLLM变体用于文本翻译,评估指标包括BLEU、ROUGE-L、METEOR和延迟。

成为VIP会员查看完整内容
15

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《基于人机交互界面的大规模蜂群指挥与控制》
专知会员服务
64+阅读 · 2024年5月1日
《结合机器人行为以实现安全、智能的执行》
专知会员服务
17+阅读 · 2023年7月4日
《行为与认知机器人学》,241页pdf
专知会员服务
55+阅读 · 2021年4月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员