Despite great progress in 3D human pose estimation from videos, it is still an open problem to take full advantage of redundant 2D pose sequences to learn representative representation for generating one single 3D pose. To this end, we propose an improved Transformer-based architecture, called Strided Transformer, for 3D human pose estimation in videos to lift a sequence of 2D joint locations to a 3D pose. Specifically, a vanilla Transformer encoder (VTE) is adopted to model long-range dependencies of 2D pose sequences. To reduce redundancy of the sequence and aggregate information from local context, strided convolutions are incorporated into VTE to progressively reduce the sequence length. The modified VTE is termed as strided Transformer encoder (STE) which is built upon the outputs of VTE. STE not only effectively aggregates long-range information to a single-vector representation in a hierarchical global and local fashion but also significantly reduces the computation cost. Furthermore, a full-to-single supervision scheme is designed at both the full sequence scale and single target frame scale, applied to the outputs of VTE and STE, respectively. This scheme imposes extra temporal smoothness constraints in conjunction with the single target frame supervision and improves the representation ability of features for the target frame. The proposed architecture is evaluated on two challenging benchmark datasets, Human3.6M and HumanEva-I, and achieves state-of-the-art results with much fewer parameters.


翻译:尽管在视频3D人造图像估算方面取得了巨大进展,但充分利用冗余的 2D 配置序列以学习一个3D 配置的具有代表性的表示。 为此,我们提议改进基于变压器的架构,称为 Strided 变压器,用于视频3D 人造图像估算,将2D 组合位置序列提升为 3D 配置。具体地说,采纳了香草变压器编码器(VTE),以模拟2D 构成序列的远距离依赖性。此外,为了减少本地背景的序列和汇总信息的冗余,将四重相交的组合参数纳入VTE,以逐步缩短序列长度。修改的变压器被称为“Stradedd 变压器”编码器,用于视频变压器输出。 STE 不仅有效地将长期信息汇总到全球和地方等级的单一矢量代表制,而且大幅降低计算成本。此外,一个全对调制监督系统的全比对齐和单一目标框架的比重参数,在VTE 和STE 的拟议指标框架中分别对具有可持续性指标性指标框架的交付。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年4月6日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
Arxiv
0+阅读 · 2021年9月22日
Arxiv
7+阅读 · 2021年6月21日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
5+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
专知会员服务
33+阅读 · 2021年4月6日
Top
微信扫码咨询专知VIP会员