To enable meaningful human-robot interaction (HRI), a robot must continuously assess engagement by consistently tracking users over time. State-of-the-art computer vision models, however, are heavily optimized for surveillance or autonomous driving. A social robot faces distinct egocentric challenges, such as humans bouncing, obstructing each other, or leaving the frame. Frequent identity switches (IDSW) cause the robot to lose its footing mid-conversation. To address this, we introduce a novel, custom-annotated egocentric dataset collected via the Furhat robot to capture complex social dynamics. We present a systematic evaluation isolating detection errors from tracking logic, comparing face versus body tracking, and assessing the impact of extended spatial memory and appearance re-identification (ReID). Results indicate that increasing spatial memory mitigates prolonged occlusions but fails on complex dynamic events. Integrating ReID resolves complex switches but exhibits opposing effects: it substantially improves body tracking stability, yet causes facial IDSW to spike due to profile angle sensitivity. Ultimately, our optimized pipeline reduces IDSW by 49\%, mitigating interaction breakdowns. Because standard benchmarks lack dense, close-quarter occlusions, this work highlights the critical need for natively captured social dynamics to truly validate HRI perception models.


翻译:为实现有意义的人机交互(HRI),机器人必须通过持续跟踪用户来实时评估参与状态。然而,当前最先进的计算机视觉模型主要针对安防监控或自动驾驶场景进行了深度优化。社交机器人面临独特的自我中心视角挑战,例如人体晃动、相互遮挡或移出画面。频繁的身份切换(IDSW)会导致机器人在对话中途失去跟踪目标。为解决这一问题,我们通过Furhat机器人采集并标注了一个新颖的自定义自我中心数据集,以捕捉复杂的社会动态。我们提出系统性评估方法,将检测错误与跟踪逻辑分离,比较面部与身体跟踪效果,并评估扩展空间记忆与外观重识别(ReID)的影响。实验结果表明,增强空间记忆可缓解长时间遮挡问题,但无法应对复杂动态事件。引入ReID虽能解决复杂身份切换,却产生相反效应:显著提升身体跟踪稳定性,但因其对侧面角度敏感,导致面部IDSW激增。最终,我们优化的流水线将IDSW降低了49%,有效减少交互中断。由于现有标准基准缺乏密集近距遮挡场景,本工作凸显了原生采集社交动态数据对真正验证HRI感知模型的必要性。

0
下载
关闭预览

相关内容

【CMU博士论文】个性化情境感知多模态机器人反馈
专知会员服务
19+阅读 · 2025年3月4日
面向虚实融合的人机交互
专知会员服务
72+阅读 · 2023年6月25日
【剑桥大学博士论文】情感机器人的持续学习,270页pdf
专知会员服务
29+阅读 · 2023年5月6日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
人脸关键点检测的数据集与核心方法发展综述
极市平台
12+阅读 · 2020年8月8日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
人脸识别技术全面总结:从传统方法到深度学习
算法与数学之美
12+阅读 · 2019年2月27日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
人脸关键点检测的数据集与核心方法发展综述
极市平台
12+阅读 · 2020年8月8日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
人脸识别技术全面总结:从传统方法到深度学习
算法与数学之美
12+阅读 · 2019年2月27日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员