Large Language Models (LLMs) have substantially improved the conversational capabilities of social robots. Nevertheless, for an intuitive and fluent human-robot interaction, robots should be able to ground the conversation by relating ambiguous or underspecified spoken utterances to the current physical situation and to the intents expressed nonverbally by the user, such as through referential gaze. Here, we propose a representation that integrates speech and gaze to enable LLMs to achieve higher situated awareness and correctly resolve ambiguous requests. Our approach relies on a text-based semantic translation of the scanpath produced by the user, along with the verbal requests. It demonstrates LLMs' capabilities to reason about gaze behavior, robustly ignoring spurious glances or irrelevant objects. We validate the system across multiple tasks and two scenarios, showing its superior generality and accuracy compared to control conditions. We demonstrate an implementation on a robotic platform, closing the loop from request interpretation to execution.


翻译:大型语言模型(LLMs)显著提升了社交机器人的对话能力。然而,为实现直观流畅的人机交互,机器人需能将模糊或未明确表述的语音话语与当前物理情境及用户非语言表达的意图(如参考性注视)进行关联,从而建立对话的语境基础。本文提出一种融合语音与注视的表示方法,使LLMs能够获得更高情境感知能力,并正确解析歧义请求。该方法基于用户扫描路径的文本化语义转换与言语请求相结合,论证了LLMs对注视行为进行推理的能力,可稳健忽略偶然注视或无关物体。我们在多重任务与两个场景中验证了该系统,相较于对照条件展现出更优的通用性与准确性。最终在机器人平台上完成闭环实现,涵盖从请求解析到动作执行的完整流程。

0
下载
关闭预览

相关内容

【斯坦福博士论文】为大型语言模型构建交互学习管道
专知会员服务
19+阅读 · 2025年7月12日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
可解释人工智能中的大语言模型:全面综述
专知会员服务
54+阅读 · 2025年4月2日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
【NAACL 2024】在大规模语言模型时代的人机交互,192页ppt
专知会员服务
60+阅读 · 2024年6月18日
大型语言模型与智能机器人集成的综述
专知会员服务
71+阅读 · 2024年4月22日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【斯坦福博士论文】为大型语言模型构建交互学习管道
专知会员服务
19+阅读 · 2025年7月12日
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
可解释人工智能中的大语言模型:全面综述
专知会员服务
54+阅读 · 2025年4月2日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
【NAACL 2024】在大规模语言模型时代的人机交互,192页ppt
专知会员服务
60+阅读 · 2024年6月18日
大型语言模型与智能机器人集成的综述
专知会员服务
71+阅读 · 2024年4月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员