FAM-HRI: Foundation-Model Assisted Multi-Modal Human-Robot Interaction Combining Gaze and Speech - 专知论文

会员服务 ·

0

INTERACT · 多峰值 · MoDELS · 机器人 · Integration ·

FAM-HRI: Foundation-Model Assisted Multi-Modal Human-Robot Interaction Combining Gaze and Speech

翻译：FAM-HRI：基于基础模型辅助的多模态人机交互方法融合注视与语音

Yuzhi Lai,Shenghai Yuan,Peizheng Li,Boya Zhang,Benjamin Kiefer,Tianchen Deng,Andreas Zell

from arxiv, This work has been accepted for publication in IEEE Transactions on Automation Science and Engineering @ 2026 IEEE

ffective Human-Robot Interaction (HRI) is crucial for enhancing accessibility and usability in real-world robotics applications. However, existing solutions often rely on gesture- only or language-only commands, making interaction inefficient and ambiguous, particularly for users with physical impairments. In this paper, we introduce FAM-HRI, an efficient multimodal framework for HRI that integrates language and gaze inputs via foundation models. By leveraging lightweight Meta ARIA glasses, our system captures real-time multimodal signals and utilizes large language models (LLMs) to fuse user intention with scene context, enabling intuitive and precise robot manipulation. Our method accurately determines the gaze fixation time interval, reducing noise caused by the gaze dynamic nature. Experimental evaluations demonstrate that FAM-HRI achieves a high success rate in task execution while maintaining a low interaction time, providing a practical solution for individuals with limited physical mobility or motor impairments. To support the community, we have released our system design, algorithms, and solutions at https://github.com/laiyuzhi/FAM-HRI.

翻译：有效的人机交互对于提升现实机器人应用的可及性和可用性至关重要。然而，现有解决方案通常仅依赖手势或语言指令，导致交互效率低下且存在歧义，尤其对于身体障碍用户。本文提出FAM-HRI，一种高效的多模态人机交互框架，通过基础模型整合语言与注视输入。系统利用轻量级Meta ARIA眼镜实时捕获多模态信号，并借助大型语言模型融合用户意图与场景上下文，实现直观精准的机器人操控。我们提出的方法能够精确确定注视停留时间区间，有效降低因注视动态特性引入的噪声。实验评估表明，FAM-HRI在保持低交互时间的同时，实现了高任务执行成功率，为行动受限或运动功能障碍人群提供了实用解决方案。为支持社区研究，我们已在https://github.com/laiyuzhi/FAM-HRI公开了系统设计、算法及解决方案。

0

相关内容

INTERACT

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来，这些会议吸引了来自几个国家和文化的研究人员。官网链接：http://interact2019.org/

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

专知会员服务

12+阅读 · 5月9日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

65+阅读 · 2022年10月28日

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

专知会员服务

52+阅读 · 2022年7月23日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

CCCF专栏文章：人机共融智能

CCCF专栏文章：人机共融智能

中国计算机学会

15+阅读 · 2017年12月21日

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

FAWAM: Force-Aware World Action Models for Closed-Loop Contact-Rich Manipulation

Arxiv

0+阅读 · 6月12日

Multi-Modal Multi-Agent Robotic Cognitive Alignment enabled by Non-Invasive Consumer Brain Computer Interfaces: A Proof of Concept Exploration

Arxiv

0+阅读 · 6月11日

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Learning to Assist: Collaborative VLAs for Implicit Human-Robot Collaboration

Arxiv

0+阅读 · 6月10日

Safe, Fluent and Acceptable Motion Generation and Execution for Human--Robot Interaction in Manufacturing Environments

Arxiv

0+阅读 · 6月7日

Agentic Neuro-Symbolic Planning and Commissioning for Human-in-the-Loop Industrial Robotics with Digital Twins

Arxiv

0+阅读 · 6月6日

Face versus Body Tracking for Human-Robot Interaction: An Egocentric Dataset

Arxiv

0+阅读 · 6月2日

MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 5月7日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

10+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

【ICML2026】MASPO：面向基于大语言模型的多智能体系统的联合提示词优化

专知会员服务

12+阅读 · 5月9日

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

【伯克利博士论文】用于机器人操作的多模态感知：融合视觉、语言与触觉

专知会员服务

22+阅读 · 2025年5月30日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

65+阅读 · 2022年10月28日

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

专知会员服务

52+阅读 · 2022年7月23日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

【AI/脑机接口+军事】含论文+ppt《基于可穿戴大脑和身体传感的用于认知负荷和训练的多模态评估方法》，美国德雷塞尔大学、洛克希德马丁、宾夕法尼亚大学等

专知会员服务

67+阅读 · 2022年4月7日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【人机融合智能】人机融合智能的现状与展望

【人机融合智能】人机融合智能的现状与展望

产业智能官

12+阅读 · 2020年3月18日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

【论文笔记】基于强化学习的人机对话

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

深思考人工智能蝉联SMP2018多轮语义对话冠军，报告解读多轮人机对话实现过程

人工智能学家

15+阅读 · 2018年8月4日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

CCCF专栏文章：人机共融智能

CCCF专栏文章：人机共融智能

中国计算机学会

15+阅读 · 2017年12月21日

相关论文

Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models

Arxiv

0+阅读 · 6月15日

FAWAM: Force-Aware World Action Models for Closed-Loop Contact-Rich Manipulation

Arxiv

0+阅读 · 6月12日

Multi-Modal Multi-Agent Robotic Cognitive Alignment enabled by Non-Invasive Consumer Brain Computer Interfaces: A Proof of Concept Exploration

Arxiv

0+阅读 · 6月11日

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Learning to Assist: Collaborative VLAs for Implicit Human-Robot Collaboration

Arxiv

0+阅读 · 6月10日

Safe, Fluent and Acceptable Motion Generation and Execution for Human--Robot Interaction in Manufacturing Environments

Arxiv

0+阅读 · 6月7日

Agentic Neuro-Symbolic Planning and Commissioning for Human-in-the-Loop Industrial Robotics with Digital Twins

Arxiv

0+阅读 · 6月6日

Face versus Body Tracking for Human-Robot Interaction: An Egocentric Dataset

Arxiv

0+阅读 · 6月2日

MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

Arxiv

0+阅读 · 5月7日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

相关基金

基于身心共融运动训练的肢体康复机器人多模态反馈方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于脑电与上肢运动信息融合的助行机器人运动控制信息表征方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员