自然语言接口可使非专业操作者更便捷地使用集群机器人技术,但其必须将模糊的用户意图转化为可执行的集群行为,同时避免生成不支持的动作、格式错误的程序或不安全的计划。本文提出CommandSwarm,一个安全感知的语言到行为树流水线,用于从语音或文本命令生成XML行为树。该系统结合了多语言翻译、命令级安全过滤、约束提示、经LoRA适配的大语言模型,以及针对可执行集群原语白名单的确定性解析器验证。我们在零样本、单样本和双样本提示下,对十一个参数量为6.7B至14B的开源大语言模型(均使用4位量化)在代表性集群控制场景中进行了评估。Falcon3-Instruct-10B和Mistral-7B-v3是提示工程效果最强的候选模型,在少样本设置下达到了0.60以上的BLEU分数和高语法有效性。在包含2,063个示例的合成指令-行为树语料库上对Falcon3-Instruct-10B进行LoRA适配后,其零样本BLEU分数从0.267提升至0.663,ROUGE-L从0.366提升至0.692,解析器接受的语法有效性从0%提升至72%。翻译实验进一步表明,SeamlessM4T v2-large和EuroLLM-9B为多语言前端提供了最佳的质量-延迟权衡。结果表明,当嵌入经过验证的系统流水线时,紧凑、量化、领域适配的大语言模型能够生成有用的集群行为树。同时,结果也表明解析器接受和安全过滤仍然是必要的执行关卡;仅凭生成质量不足以实现自主部署。
本文做出了四项贡献:1) 一个面向集群的安全感知语言到行为树架构。我们定义了一个涵盖翻译、安全过滤、基于大语言模型的行为树合成以及中间件级解析/执行的CommandSwarm四层流水线。2) 对紧凑型开源大语言模型的系统性基准测试。我们在零样本、单样本和双样本提示下评估了十一个6.7B至14B参数量的模型,所有模型均量化为4位以进行实际比较。3) 一个合成指令-行为树适配流水线。我们构建了一个包含2,063个示例的合成语料库,并使用LoRA适配Falcon3-Instruct-10B,显著提升了零样本生成质量和语法有效性。4) 一个多语言前端评估。我们比较了Whisper和SeamlessM4T用于语音翻译,以及EuroLLM变体用于文本翻译,评估指标包括BLEU、ROUGE-L、METEOR和延迟。