In natural human-to-human communication, multimodal user input is typically used to supplement explicit and complement implicit voice commands, with casualness allowing for flexible input modality combinations and tolerance for imprecise input data. For example, saying "I want that." with a casual glance at a bottle of water is clear enough in human-to-human communication as an implicit voice command accompanied by gaze and/or gestures, rather than an explicit one. To enable such a human-like interaction in human-robot interaction (HRI), we propose a system, IntenBot, to understand user intentions from flexible and imprecise multimodal input, including voice, gaze, and finger-pointing, in XR. The disambiguation capability of large language models (LLMs) is used to filter out irrelevant input modalities and imprecise input data, generating potential instructions for user confirmation. The flexible and imprecise multimodal input enables casual, human-like interaction with robots, reducing time, effort, and attention, and could also be used as non-voice input. We conducted an informative user behavior study in a simulated environment to understand users' natural be- havior in flexibly interacting with a robot using multimodal input and to obtain appropriate angle range parameters for gaze and finger-pointing. An XR study was then performed to evaluate the performance of IntenBot, compared with other methods. We also deployed IntenBot on a physical robot to showcase its real-world applications.


翻译:在自然的人际沟通中,多模态用户输入通常用于补充显式指令并补充隐式语音命令,其随意性允许多种输入模态的灵活组合以及对不精确输入数据的容忍。例如,在人际交流中,说“我想要那个”并随意扫视一瓶水,作为以注视和/或手势伴随的隐式语音命令(而非显式指令),其含义已足够清晰。为在人机交互中实现此类类人交互,我们提出IntenBot系统,旨在从扩展现实环境下包括语音、注视和手指指向的灵活且不精确的多模态输入中理解用户意图。利用大语言模型的消歧能力滤除无关输入模态与不精确输入数据,生成候选指令供用户确认。这种灵活且不精确的多模态输入支持与机器人的自然类人交互,减少时间、精力和注意力消耗,并可作为非语音输入使用。我们在模拟环境中开展了信息性用户行为研究,以理解用户使用多模态输入灵活与机器人交互的自然行为,并获取注视与手指指向的合适角度范围参数。随后通过扩展现实实验评估IntenBot相较其他方法的性能。我们还将IntenBot部署于实体机器人,展示其实际应用场景。

0
下载
关闭预览

相关内容

Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月18日
Arxiv
12+阅读 · 2023年5月22日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员