Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model's architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.


翻译:领导者-跟随者交互是人机交互(HRI)中的重要范式。然而,对于资源受限的移动辅助机器人而言,实时角色分配仍具挑战性。尽管大规模语言模型(LLMs)在自然交流方面展现出潜力,但其模型规模与延迟问题限制了在设备端的部署。小规模语言模型(SLMs)提供了潜在的替代方案,但其在人机交互角色分类中的有效性尚未得到系统评估。本文提出了面向领导者-跟随者交互的SLMs基准测试,通过已发布数据库构建并辅以合成样本增强,创建了能捕捉交互动态特性的新型数据集。我们研究了两种适应策略:提示工程与微调,在零样本和单样本交互模式下进行对比分析,并与未经训练的基线模型进行比较。基于Qwen2.5-0.5B的实验表明,零样本微调在保持低延迟(每样本22.2毫秒)的同时实现了稳健的分类性能(准确率86.66%),显著优于基线方法与提示工程策略。然而,结果也显示单样本模式下存在性能下降现象,其中增加的上下文长度对模型架构容量提出了挑战。这些发现证明,经过微调的SLMs能为直接角色分配提供有效解决方案,同时揭示了边缘计算中对话复杂度与分类可靠性之间的关键权衡关系。

0
下载
关闭预览

相关内容

【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
基于小样本学习的意图识别冷启动
PaperWeekly
11+阅读 · 2019年5月12日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
从俄乌战场看“马赛克战”
专知会员服务
0+阅读 · 8分钟前
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
4+阅读 · 4月12日
相关VIP内容
【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
移动边缘智能与大型语言模型综述
专知会员服务
40+阅读 · 2024年7月31日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员