PyCAT4：一种基于分层视觉Transformer的三维人体姿态估计框架 (PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation) - 专知论文

会员服务 ·

0

人体姿态 · 人体姿态估计 · 姿态估计 · 时序 · Transformer ·

PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation

翻译：PyCAT4：一种基于分层视觉Transformer的三维人体姿态估计框架

Zongyou Yang,Jonathan Loo,Yinghan Hou

from arxiv, 10 pages, 20 figures

Recently, a significant improvement in the accuracy of 3D human pose estimation has been achieved by combining convolutional neural networks (CNNs) with pyramid grid alignment feedback loops. Additionally, innovative breakthroughs have been made in the field of computer vision through the adoption of Transformer-based temporal analysis architectures. Given these advancements, this study aims to deeply optimize and improve the existing Pymaf network architecture. The main innovations of this paper include: (1) Introducing a Transformer feature extraction network layer based on self-attention mechanisms to enhance the capture of low-level features; (2) Enhancing the understanding and capture of temporal signals in video sequences through feature temporal fusion techniques; (3) Implementing spatial pyramid structures to achieve multi-scale feature fusion, effectively balancing feature representations differences across different scales. The new PyCAT4 model obtained in this study is validated through experiments on the COCO and 3DPW datasets. The results demonstrate that the proposed improvement strategies significantly enhance the network's detection capability in human pose estimation, further advancing the development of human pose estimation technology.

翻译：近年来，通过将卷积神经网络（CNNs）与金字塔网格对齐反馈循环相结合，三维人体姿态估计的准确性取得了显著提升。此外，通过采用基于Transformer的时序分析架构，计算机视觉领域也实现了创新性突破。鉴于这些进展，本研究旨在对现有的Pymaf网络架构进行深度优化与改进。本文的主要创新点包括：（1）引入基于自注意力机制的Transformer特征提取网络层，以增强对低级特征的捕获能力；（2）通过特征时序融合技术，增强对视频序列中时序信号的理解与捕捉；（3）采用空间金字塔结构实现多尺度特征融合，有效平衡不同尺度间的特征表示差异。本研究得到的新模型PyCAT4在COCO和3DPW数据集上进行了实验验证。结果表明，所提出的改进策略显著增强了网络在人体姿态估计中的检测能力，进一步推动了人体姿态估计技术的发展。

0

相关内容

人体姿态

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

专知会员服务

24+阅读 · 2022年7月4日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

40+阅读 · 2020年12月29日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

深度学习（可视化部分）-使用keras识别猫咪

深度学习（可视化部分）-使用keras识别猫咪

北京思腾合力科技有限公司

10+阅读 · 2017年11月30日

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于结构特征的人脸识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction

Arxiv

0+阅读 · 2月5日

SalFormer360: a transformer-based saliency estimation model for 360-degree videos

Arxiv

0+阅读 · 2月4日

iPEAR: Iterative Pyramid Estimation with Attention and Residuals for Deformable Medical Image Registration

Arxiv

0+阅读 · 1月29日

ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers

Arxiv

0+阅读 · 1月29日

TEFormer: Structured Bidirectional Temporal Enhancement Modeling in Spiking Transformers

Arxiv

0+阅读 · 1月26日

Correct-by-Construction Vision-based Pose Estimation using Geometric Generative Models

Arxiv

0+阅读 · 1月24日

Flow Matching for Probabilistic Monocular 3D Human Pose Estimation

Arxiv

0+阅读 · 1月23日

VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement

Arxiv

0+阅读 · 1月21日

On the Role of Rotation Equivariance in Monocular 3D Human Pose Estimation

Arxiv

0+阅读 · 1月20日

COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

人体姿态估计

相关VIP内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

专知会员服务

24+阅读 · 2022年7月4日

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

Transformer综述又一弹！西电最新《Transformer视觉学习理解》综述ViT在图像视频中的研究进展与10大问题

专知会员服务

112+阅读 · 2022年4月24日

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

【吉林大学等】三维人体运动预测研究综述，3D Human Motion Prediction : A Survey

专知会员服务

30+阅读 · 2022年3月8日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

最新《深度学习人体姿态估计》综述论文，26页pdf

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

40+阅读 · 2020年12月29日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

计算机视觉方向简介 | 人体姿态估计

计算机视觉方向简介 | 人体姿态估计

计算机视觉life

28+阅读 · 2019年6月6日

深度学习人体姿态估计算法综述

深度学习人体姿态估计算法综述

AI前线

25+阅读 · 2019年5月19日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

六种人体姿态估计的深度学习模型和代码总结

六种人体姿态估计的深度学习模型和代码总结

论智

19+阅读 · 2018年6月27日

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

干货|张锋 2D单人人体姿态估计及其应用（PPT+视频）

极市平台

12+阅读 · 2018年2月2日

深度学习（可视化部分）-使用keras识别猫咪

深度学习（可视化部分）-使用keras识别猫咪

北京思腾合力科技有限公司

10+阅读 · 2017年11月30日

相关论文

PoseGaussian: Pose-Driven Novel View Synthesis for Robust 3D Human Reconstruction

Arxiv

0+阅读 · 2月5日

SalFormer360: a transformer-based saliency estimation model for 360-degree videos

Arxiv

0+阅读 · 2月4日

iPEAR: Iterative Pyramid Estimation with Attention and Residuals for Deformable Medical Image Registration

Arxiv

0+阅读 · 1月29日

ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers

Arxiv

0+阅读 · 1月29日

TEFormer: Structured Bidirectional Temporal Enhancement Modeling in Spiking Transformers

Arxiv

0+阅读 · 1月26日

Correct-by-Construction Vision-based Pose Estimation using Geometric Generative Models

Arxiv

0+阅读 · 1月24日

Flow Matching for Probabilistic Monocular 3D Human Pose Estimation

Arxiv

0+阅读 · 1月23日

VIAFormer: Voxel-Image Alignment Transformer for High-Fidelity Voxel Refinement

Arxiv

0+阅读 · 1月21日

On the Role of Rotation Equivariance in Monocular 3D Human Pose Estimation

Arxiv

0+阅读 · 1月20日

COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation

Arxiv

0+阅读 · 1月14日

相关基金

面向图像网状结构体的蚁群分割算法

国家自然科学基金

0+阅读 · 2017年12月31日

基于结构特征的人脸识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

三维空间中基于图结构的人体姿态估计算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员