Human pose estimation is a complicated structured data sequence modeling task. Most existing methods only consider the pair-wise interaction of human body joints in model learning. Unfortunately, this causes 3D pose estimation to fail in difficult cases such as $\textit{joints overlapping}$, and pose $\textit{fast-changing}$, as pair-wise relations cannot exploit fine-grained human body priors in pose estimation. To this end, we revamped the 3D pose estimation framework with a $\textit{High-order}$ $\textit{Directed}$ $\textit{Transformer}$ (HDFormer), which coherently exploits the high-order bones and joints relevances to boost the performance of pose estimation. Specifically, HDFormer adopts both self-attention and high-order attention schemes to build up a multi-order attention module to perform the information flow interaction including the first-order $"\textit{joint$\leftrightarrow$joint}"$, second-order $"\textit{bone$\leftrightarrow$joint}"$ as well as high-order $"\textit{hyperbone$\leftrightarrow$joint}"$ relationships (hyperbone is defined as a joint set), compensating the hard cases prediction in fast-changing and heavy occlusion scenarios. Moreover, modernized CNN techniques are applied to upgrade the transformer-based architecture to speed up the HDFormer, achieving a favorable trade-off between effectiveness and efficiency. We compare our model with other SOTA models on the datasets Human3.6M and MPI-INF-3DHP. The results demonstrate that the proposed HDFormer achieves superior performance with only $\textbf{1/10}$ parameters and much lower computational cost compared to the current SOTAs. Moreover, HDFormer can be applied to various types of real-world applications, enabling real-time and accurate 3D pose estimation. The source code is in https://github.com/hyer/HDFormer.


翻译:人体姿态估计是一项复杂的结构化数据序列建模任务。现有方法大多仅考虑模型学习中人体关节的两两交互。然而,由于两两关系无法利用姿态估计中人体的细粒度先验信息,这导致在诸如$\textit{关节重叠}$和姿态$\textit{快速变化}$的困难情况下,三维姿态估计难以有效进行。为此,我们提出一种$\textit{高阶有向Transformer}$(HDFormer)来重塑三维姿态估计框架,该框架能够连贯地利用高阶骨骼与关节的相关性,从而提升姿态估计性能。具体而言,HDFormer采用自注意力与高阶注意力机制,构建一个多阶注意力模块,实现信息流交互,包括一阶的“$\textit{关节$\leftrightarrow$关节}$”、二阶的“$\textit{骨骼$\leftrightarrow$关节}$”以及高阶的“$\textit{超骨骼$\leftrightarrow$关节}$”关系(超骨骼定义为关节集合),从而在快速变化和严重遮挡场景中补偿困难样本的预测。此外,我们采用现代化的CNN技术升级基于Transformer的架构以加速HDFormer,实现了效果与效率之间的有利平衡。我们将模型与其他SOTA模型在Human3.6M和MPI-INF-3DHP数据集上进行比较。结果表明,所提出的HDFormer仅用当前SOTA模型$\textbf{1/10}$的参数和极低计算成本即实现了卓越性能。此外,HDFormer可应用于各类实际场景,实现实时且准确的三维人体姿态估计。源代码请见https://github.com/hyer/HDFormer。

0
下载
关闭预览

相关内容

不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
76+阅读 · 2022年6月28日
专知会员服务
26+阅读 · 2021年4月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年3月27日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
最新内容
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 22分钟前
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 32分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 47分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员