Equipping humanoid robots with the capability to understand emotional states of human interactants and express emotions appropriately according to situations is essential for affective human-robot interaction. However, enabling current vision-aware multimodal emotion recognition models for affective human-robot interaction in the real-world raises embodiment challenges: addressing the environmental noise issue and meeting real-time requirements. First, in multiparty conversation scenarios, the noises inherited in the visual observation of the robot, which may come from either 1) distracting objects in the scene or 2) inactive speakers appearing in the field of view of the robot, hinder the models from extracting emotional cues from vision inputs. Secondly, realtime response, a desired feature for an interactive system, is also challenging to achieve. To tackle both challenges, we introduce an affective human-robot interaction system called UGotMe designed specifically for multiparty conversations. Two denoising strategies are proposed and incorporated into the system to solve the first issue. Specifically, to filter out distracting objects in the scene, we propose extracting face images of the speakers from the raw images and introduce a customized active face extraction strategy to rule out inactive speakers. As for the second issue, we employ efficient data transmission from the robot to the local server to improve realtime response capability. We deploy UGotMe on a human robot named Ameca to validate its real-time inference capabilities in practical scenarios. Videos demonstrating real-world deployment are available at https://lipzh5.github.io/HumanoidVLE/.


翻译:为人形机器人配备理解人类交互对象情感状态并根据情境恰当表达情感的能力,对于实现情感化人机交互至关重要。然而,将当前基于视觉的多模态情感识别模型应用于现实世界的情感人机交互时,会引发具身性挑战:需要解决环境噪声问题并满足实时性要求。首先,在多参与者对话场景中,机器人视觉观测中固有的噪声(可能来自1)场景中的干扰物体,或2)出现在机器人视野内的非活跃说话者)会阻碍模型从视觉输入中提取情感线索。其次,实时响应作为交互系统的理想特性,同样难以实现。为应对这两项挑战,我们提出了专门针对多参与者对话设计的UGotMe情感人机交互系统。为解决第一个问题,系统整合了两种去噪策略:具体而言,为过滤场景中的干扰物体,我们提出从原始图像中提取说话者面部图像,并引入定制的主动面部提取策略以排除非活跃说话者。针对第二个问题,我们采用从机器人到本地服务器的高效数据传输机制以提升实时响应能力。我们将UGotMe部署于名为Ameca的人形机器人,在实际场景中验证了其实时推理能力。展示实际部署效果的视频可在 https://lipzh5.github.io/HumanoidVLE/ 查看。

0
下载
关闭预览

相关内容

【CMU博士论文】个性化情境感知多模态机器人反馈
专知会员服务
19+阅读 · 2025年3月4日
情感对话技术综述
专知会员服务
29+阅读 · 2024年4月3日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
【剑桥大学博士论文】情感机器人的持续学习,270页pdf
专知会员服务
29+阅读 · 2023年5月6日
揭秘ChatGPT情感对话能力
专知会员服务
59+阅读 · 2023年4月9日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
揭秘ChatGPT情感对话能力
专知
16+阅读 · 2023年4月9日
【人机融合智能】人机融合智能的现状与展望
产业智能官
12+阅读 · 2020年3月18日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
9+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
14+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
9+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
13+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员