Face versus Body Tracking for Human-Robot Interaction: An Egocentric Dataset - 专知论文

会员服务 ·

0

交互 · 遮挡 · 数据集 · 人机交互 · 机器人 ·

Face versus Body Tracking for Human-Robot Interaction: An Egocentric Dataset

翻译：面向人机交互的面部与身体跟踪：一个自我中心视角数据集

Jessica Wenninger,Gabriel Skantze

from arxiv, 8 pages, 5 figures, 3 tables. Accepted to the 35th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN 2026)

To enable meaningful human-robot interaction (HRI), a robot must continuously assess engagement by consistently tracking users over time. State-of-the-art computer vision models, however, are heavily optimized for surveillance or autonomous driving. A social robot faces distinct egocentric challenges, such as humans bouncing, obstructing each other, or leaving the frame. Frequent identity switches (IDSW) cause the robot to lose its footing mid-conversation. To address this, we introduce a novel, custom-annotated egocentric dataset collected via the Furhat robot to capture complex social dynamics. We present a systematic evaluation isolating detection errors from tracking logic, comparing face versus body tracking, and assessing the impact of extended spatial memory and appearance re-identification (ReID). Results indicate that increasing spatial memory mitigates prolonged occlusions but fails on complex dynamic events. Integrating ReID resolves complex switches but exhibits opposing effects: it substantially improves body tracking stability, yet causes facial IDSW to spike due to profile angle sensitivity. Ultimately, our optimized pipeline reduces IDSW by 49\%, mitigating interaction breakdowns. Because standard benchmarks lack dense, close-quarter occlusions, this work highlights the critical need for natively captured social dynamics to truly validate HRI perception models.

翻译：为实现有意义的人机交互（HRI），机器人必须通过持续跟踪用户来实时评估参与状态。然而，当前最先进的计算机视觉模型主要针对安防监控或自动驾驶场景进行了深度优化。社交机器人面临独特的自我中心视角挑战，例如人体晃动、相互遮挡或移出画面。频繁的身份切换（IDSW）会导致机器人在对话中途失去跟踪目标。为解决这一问题，我们通过Furhat机器人采集并标注了一个新颖的自定义自我中心数据集，以捕捉复杂的社会动态。我们提出系统性评估方法，将检测错误与跟踪逻辑分离，比较面部与身体跟踪效果，并评估扩展空间记忆与外观重识别（ReID）的影响。实验结果表明，增强空间记忆可缓解长时间遮挡问题，但无法应对复杂动态事件。引入ReID虽能解决复杂身份切换，却产生相反效应：显著提升身体跟踪稳定性，但因其对侧面角度敏感，导致面部IDSW激增。最终，我们优化的流水线将IDSW降低了49%，有效减少交互中断。由于现有标准基准缺乏密集近距遮挡场景，本工作凸显了原生采集社交动态数据对真正验证HRI感知模型的必要性。

0

相关内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

【剑桥大学博士论文】情感机器人的持续学习，270页pdf

【剑桥大学博士论文】情感机器人的持续学习，270页pdf

专知会员服务

29+阅读 · 2023年5月6日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

65+阅读 · 2022年10月28日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

专知会员服务

53+阅读 · 2022年4月30日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

人脸关键点检测的数据集与核心方法发展综述

人脸关键点检测的数据集与核心方法发展综述

极市平台

12+阅读 · 2020年8月8日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

人脸识别技术全面总结：从传统方法到深度学习

人脸识别技术全面总结：从传统方法到深度学习

算法与数学之美

12+阅读 · 2019年2月27日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Arxiv

0+阅读 · 6月15日

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Auditing Demographic Bias in Facial Landmark Detection for Fair Human-Robot Interaction

Arxiv

0+阅读 · 6月10日

Learning to Assist: Collaborative VLAs for Implicit Human-Robot Collaboration

Arxiv

0+阅读 · 6月10日

Hierarchical Policies from Verbal and Egocentric Human Signals for Natural Human-Robot Interaction

Arxiv

0+阅读 · 6月9日

Boosting metacognition in entangled human-AI interaction to navigate cognitive-behavioral drift

Arxiv

0+阅读 · 5月29日

FAM-HRI: Foundation-Model Assisted Multi-Modal Human-Robot Interaction Combining Gaze and Speech

Arxiv

0+阅读 · 5月18日

Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning

Arxiv

0+阅读 · 5月18日

Social Human Robot Embodied Conversation (SHREC) Dataset: Benchmarking Foundational Models' Social Reasoning

Arxiv

0+阅读 · 5月12日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

27+阅读 · 2025年11月21日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

【剑桥大学博士论文】情感机器人的持续学习，270页pdf

【剑桥大学博士论文】情感机器人的持续学习，270页pdf

专知会员服务

29+阅读 · 2023年5月6日

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

《人类与自动机器学习系统交互的角色和模式：综述与展望》98页长综述论文（2022），悉尼科技大学

专知会员服务

65+阅读 · 2022年10月28日

多模态人机交互综述

多模态人机交互综述

专知会员服务

150+阅读 · 2022年7月3日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

《人工智能之人机交互》报告重磅发布，展示AI+人机交互的酷炫现状与未来

专知会员服务

53+阅读 · 2022年4月30日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

人脸关键点检测的数据集与核心方法发展综述

人脸关键点检测的数据集与核心方法发展综述

极市平台

12+阅读 · 2020年8月8日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

计算机视觉方向简介 | 人脸表情识别

计算机视觉方向简介 | 人脸表情识别

计算机视觉life

36+阅读 · 2019年5月15日

人脸识别技术全面总结：从传统方法到深度学习

人脸识别技术全面总结：从传统方法到深度学习

算法与数学之美

12+阅读 · 2019年2月27日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

干货｜基于双流递归神经网络的人体骨架行为识别！

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Arxiv

0+阅读 · 6月15日

GenHOI: Contact-Aware Humanoid-Object Interaction by Imitating Generated Videos without Task-Specific Training

Arxiv

0+阅读 · 6月11日

Auditing Demographic Bias in Facial Landmark Detection for Fair Human-Robot Interaction

Arxiv

0+阅读 · 6月10日

Learning to Assist: Collaborative VLAs for Implicit Human-Robot Collaboration

Arxiv

0+阅读 · 6月10日

Hierarchical Policies from Verbal and Egocentric Human Signals for Natural Human-Robot Interaction

Arxiv

0+阅读 · 6月9日

Boosting metacognition in entangled human-AI interaction to navigate cognitive-behavioral drift

Arxiv

0+阅读 · 5月29日

FAM-HRI: Foundation-Model Assisted Multi-Modal Human-Robot Interaction Combining Gaze and Speech

Arxiv

0+阅读 · 5月18日

Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning

Arxiv

0+阅读 · 5月18日

Social Human Robot Embodied Conversation (SHREC) Dataset: Benchmarking Foundational Models' Social Reasoning

Arxiv

0+阅读 · 5月12日

Agent AI: Surveying the Horizons of Multimodal Interaction

Arxiv

61+阅读 · 2024年1月7日

相关基金

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员