Skeleton-based Human Action Recognition (HAR) is a vital technology in robotics and human-robot interaction. However, most existing methods concentrate primarily on full-body movements and often overlook subtle hand motions that are critical for distinguishing fine-grained actions. Recent work leverages a unified graph representation that combines body, hand, and foot keypoints to capture detailed body dynamics. Yet, these models often blur fine hand details due to the disparity between body and hand action characteristics and the loss of subtle features during the spatial-pooling. In this paper, we propose BHaRNet (Body-Hand action Recognition Network), a novel framework that augments a typical body-expert model with a hand-expert model. Our model jointly trains both streams with an ensemble loss that fosters cooperative specialization, functioning in a manner reminiscent of a Mixture-of-Experts (MoE). Moreover, cross-attention is employed via an expertized branch method and a pooling-attention module to enable feature-level interactions and selectively fuse complementary information. Inspired by MMNet, we also demonstrate the applicability of our approach to multi-modal tasks by leveraging RGB information, where body features guide RGB learning to capture richer contextual cues. Experiments on large-scale benchmarks (NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, and Northwestern-UCLA) demonstrate that BHaRNet achieves SOTA accuracies -- improving from 86.4\% to 93.0\% in hand-intensive actions -- while maintaining fewer GFLOPs and parameters than the relevant unified methods.


翻译:基于骨骼的人体动作识别是机器人学和人机交互领域的一项关键技术。然而,现有方法大多集中于全身运动,往往忽略了对于区分细粒度动作至关重要的细微手部动作。近期研究采用了一种结合身体、手部和足部关键点的统一图表示来捕捉详细的身体动态。然而,由于身体与手部动作特征的差异性,以及在空间池化过程中细微特征的丢失,这些模型常常模糊了手部的精细细节。本文提出BHaRNet(体-手动作识别网络),一种新颖的框架,它通过一个手部专家模型增强了一个典型的身体专家模型。我们的模型通过一种促进协作专业化的集成损失联合训练两个流,其运作方式类似于混合专家模型。此外,通过专家化分支方法和池化-注意力模块采用跨注意力机制,以实现特征级交互并有选择地融合互补信息。受MMNet启发,我们还通过利用RGB信息展示了我们方法在多模态任务中的适用性,其中身体特征引导RGB学习以捕捉更丰富的上下文线索。在大规模基准数据集(NTU RGB+D 60、NTU RGB+D 120、PKU-MMD和Northwestern-UCLA)上的实验表明,BHaRNet实现了最先进的准确率——在手部密集动作中从86.4%提升至93.0%——同时保持了比相关统一方法更少的GFLOPs和参数量。

0
下载
关闭预览

相关内容

【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
专知会员服务
34+阅读 · 2021年10月11日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
HAN:基于双层注意力机制的异质图深度神经网络
黑龙江大学自然语言处理实验室
20+阅读 · 2019年5月7日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
一文看懂如何将深度学习应用于视频动作识别
人体骨骼关键点检测综述
极市平台
22+阅读 · 2018年6月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
专知会员服务
34+阅读 · 2021年10月11日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
相关资讯
HAN:基于双层注意力机制的异质图深度神经网络
黑龙江大学自然语言处理实验室
20+阅读 · 2019年5月7日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
【紫冬分享】基于人体骨架的行为识别
中国科学院自动化研究所
20+阅读 · 2019年1月18日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
一文看懂如何将深度学习应用于视频动作识别
人体骨骼关键点检测综述
极市平台
22+阅读 · 2018年6月29日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员