HiSync: Spatio-Temporally Aligning Hand Motion from Wearable IMU and On-Robot Camera for Command Source Identification in Long-Range HRI - 专知论文

会员服务 ·

0

远程 · 对齐 · 交互 · 识别 · 模态 ·

HiSync: Spatio-Temporally Aligning Hand Motion from Wearable IMU and On-Robot Camera for Command Source Identification in Long-Range HRI

翻译：HiSync：面向远程人机交互中指令源识别的可穿戴IMU与机器人摄像头手部运动时空对齐方法

Chengwen Zhang,Chun Yu,Borong Zhuang,Haopeng Jin,Qingyang Wan,Zhuojun Li,Zhe He,Zhoutong Ye,Yu Mei,Chang Liu,Weinan Shi,Yuanchun Shi

Long-range Human-Robot Interaction (HRI) remains underexplored. Within it, Command Source Identification (CSI) - determining who issued a command - is especially challenging due to multi-user and distance-induced sensor ambiguity. We introduce HiSync, an optical-inertial fusion framework that treats hand motion as binding cues by aligning robot-mounted camera optical flow with hand-worn IMU signals. We first elicit a user-defined (N=12) gesture set and collect a multimodal command gesture dataset (N=38) in long-range multi-user HRI scenarios. Next, HiSync extracts frequency-domain hand motion features from both camera and IMU data, and a learned CSINet denoises IMU readings, temporally aligns modalities, and performs distance-aware multi-window fusion to compute cross-modal similarity of subtle, natural gestures, enabling robust CSI. In three-person scenes up to 34m, HiSync achieves 92.32% CSI accuracy, outperforming the prior SOTA by 48.44%. HiSync is also validated on real-robot deployment. By making CSI reliable and natural, HiSync provides a practical primitive and design guidance for public-space HRI. https://github.com/OctopusWen/HiSync

翻译：远程人机交互（HRI）仍是一个尚未充分探索的领域。其中，指令源识别（CSI）——即确定指令由谁发出——由于多用户及距离导致的传感模糊性而尤为困难。我们提出HiSync，一种光惯性融合框架，通过将机器人搭载的摄像头光流与手部佩戴的IMU信号对齐，将手部运动视为绑定线索。首先，我们通过用户定义（N=12）手势集，并在远程多用户HRI场景中收集多模态指令手势数据集（N=38）。接着，HiSync从摄像头和IMU数据中提取频域手部运动特征，所学习的CSINet对IMU读数进行去噪、时间对齐各模态，并通过距离感知的多窗口融合计算细微自然手势的跨模态相似度，从而实现鲁棒的CSI。在长达34米的三人大场景中，HiSync达到92.32%的CSI准确率，较先前SOTA提升48.44%。HiSync也在真实机器人部署中得到验证。通过使CSI可靠且自然，HiSync为公共空间HRI提供了实用的基础模块与设计指导。https://github.com/OctopusWen/HiSync

0

相关内容

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

17+阅读 · 6月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

30+阅读 · 5月12日

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

专知会员服务

27+阅读 · 2025年7月31日

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

专知会员服务

39+阅读 · 2025年6月6日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

利用人工智能提升战术级目标定位能力

利用人工智能提升战术级目标定位能力

专知会员服务

39+阅读 · 2024年12月4日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

50+阅读 · 2023年4月28日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

【AI+军事】附论文《基于人工智能的“元素周期表”系统作为机器学习专家和军事操作员之间的有效沟通手段》

【AI+军事】附论文《基于人工智能的“元素周期表”系统作为机器学习专家和军事操作员之间的有效沟通手段》

专知会员服务

26+阅读 · 2022年5月5日

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器人辅助血管介入手术中器械跟踪与控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

Arxiv

0+阅读 · 4月21日

MM-Hand: A 21-DOF Multi-modal Modular Dexterous Robotic Hand with Remote Actuation

Arxiv

0+阅读 · 4月19日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

HandX: Scaling Bimanual Motion and Interaction Generation

Arxiv

0+阅读 · 3月30日

Objestures: Everyday Objects Meet Mid-Air Gestures for Expressive Interaction

Arxiv

0+阅读 · 3月30日

Tele-Catch: Adaptive Teleoperation for Dexterous Dynamic 3D Object Catching

Arxiv

0+阅读 · 3月30日

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

Arxiv

0+阅读 · 3月23日

AGILE: A Comprehensive Workflow for Humanoid Loco-Manipulation Learning

Arxiv

0+阅读 · 3月20日

SurfaceXR: Fusing Smartwatch IMUs and Egocentric Hand Pose for Seamless Surface Interactions

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

17+阅读 · 6月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

30+阅读 · 5月12日

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

专知会员服务

27+阅读 · 2025年7月31日

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

专知会员服务

39+阅读 · 2025年6月6日

【CMU博士论文】个性化情境感知多模态机器人反馈

【CMU博士论文】个性化情境感知多模态机器人反馈

专知会员服务

19+阅读 · 2025年3月4日

利用人工智能提升战术级目标定位能力

利用人工智能提升战术级目标定位能力

专知会员服务

39+阅读 · 2024年12月4日

面向虚实融合的人机交互

面向虚实融合的人机交互

专知会员服务

72+阅读 · 2023年6月25日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

50+阅读 · 2023年4月28日

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

《多模态人机交互：基于语音和手势控制的开源驱动架构》2022年加拿大国防研究与发展部（DRDC）50页pdf

专知会员服务

55+阅读 · 2022年5月13日

【AI+军事】附论文《基于人工智能的“元素周期表”系统作为机器学习专家和军事操作员之间的有效沟通手段》

【AI+军事】附论文《基于人工智能的“元素周期表”系统作为机器学习专家和军事操作员之间的有效沟通手段》

专知会员服务

26+阅读 · 2022年5月5日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

推荐！【美国陆军战略项目年度报告】《人工智能（AI）用于多域作战（MDO）的指挥和控制（C2）》完整译文，美国陆军研究实验室

专知

59+阅读 · 2022年9月24日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

专知

17+阅读 · 2019年10月29日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Adaptive vs. Static Robot-to-Human Handover: A Study on Orientation and Approach Direction

Arxiv

0+阅读 · 4月24日

A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

Arxiv

0+阅读 · 4月21日

MM-Hand: A 21-DOF Multi-modal Modular Dexterous Robotic Hand with Remote Actuation

Arxiv

0+阅读 · 4月19日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

HandX: Scaling Bimanual Motion and Interaction Generation

Arxiv

0+阅读 · 3月30日

Objestures: Everyday Objects Meet Mid-Air Gestures for Expressive Interaction

Arxiv

0+阅读 · 3月30日

Tele-Catch: Adaptive Teleoperation for Dexterous Dynamic 3D Object Catching

Arxiv

0+阅读 · 3月30日

UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos

Arxiv

0+阅读 · 3月23日

AGILE: A Comprehensive Workflow for Humanoid Loco-Manipulation Learning

Arxiv

0+阅读 · 3月20日

SurfaceXR: Fusing Smartwatch IMUs and Egocentric Hand Pose for Seamless Surface Interactions

Arxiv

0+阅读 · 3月19日

相关基金

融合人脑意图与力觉反馈的外骨骼机器人步态控制CPG模型及调节方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于增强现实的主从遥操作手术机器人系统中的力反馈问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度神经网络的雷达目标高分辨距离像稳健识别方法

国家自然科学基金

6+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器人辅助血管介入手术中器械跟踪与控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员