DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video - 专知论文

会员服务 ·

0

INFORMS · 平滑 · 解码 · Extensibility · Performer ·

2023 年 3 月 23 日

DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video

翻译：DDT：一种基于扩散驱动的Transformer框架用于视频人体网格恢复

Ce Zheng,Guo-Jun Qi,Chen Chen

Human mesh recovery (HMR) provides rich human body information for various real-world applications such as gaming, human-computer interaction, and virtual reality. Compared to single image-based methods, video-based methods can utilize temporal information to further improve performance by incorporating human body motion priors. However, many-to-many approaches such as VIBE suffer from motion smoothness and temporal inconsistency. While many-to-one approaches such as TCMR and MPS-Net rely on the future frames, which is non-causal and time inefficient during inference. To address these challenges, a novel Diffusion-Driven Transformer-based framework (DDT) for video-based HMR is presented. DDT is designed to decode specific motion patterns from the input sequence, enhancing motion smoothness and temporal consistency. As a many-to-many approach, the decoder of our DDT outputs the human mesh of all the frames, making DDT more viable for real-world applications where time efficiency is crucial and a causal model is desired. Extensive experiments are conducted on the widely used datasets (Human3.6M, MPI-INF-3DHP, and 3DPW), which demonstrated the effectiveness and efficiency of our DDT.

翻译：人体网格恢复（HMR）为游戏、人机交互和虚拟现实等实际应用提供了丰富的人体信息。与基于单图像的方法相比，基于视频的方法可以利用时间信息，通过融合人体运动先验来进一步提升性能。然而，诸如VIBE等“多对多”方法存在运动平滑性和时间一致性问题，而TCMR和MPS-Net等“多对一”方法依赖于未来帧，这在推理过程中既非因果也耗时低效。为解决这些挑战，本文提出了一种新颖的基于扩散驱动的Transformer框架（DDT），用于视频HMR。DDT旨在从输入序列中解码特定运动模式，增强运动平滑性和时间一致性。作为一种“多对多”方法，DDT的解码器输出所有帧的人体网格，使其更适用于对时间效率要求高且需因果模型的现实应用。在广泛使用的数据集（Human3.6M、MPI-INF-3DHP和3DPW）上进行了大量实验，结果证明了DDT的有效性和高效性。

1

相关内容

INFORMS

《计算机信息》杂志发表高质量的论文，扩大了运筹学和计算的范围，寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文，以及描述新的和有用的软件工具的论文。官网链接：https://pubsonline.informs.org/journal/ijoc

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

专知会员服务

195+阅读 · 2020年5月3日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

专知

14+阅读 · 2018年6月24日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

不同来流条件下旋转圆球绕流特性研究与非定常气动模型构建

国家自然科学基金

1+阅读 · 2015年12月31日

围限颗粒介质差速器自适应传动机理与性能优化

国家自然科学基金

0+阅读 · 2014年12月31日

全太阳光谱驱动纳米结构OMS-2催化净化挥发性有机污染物

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于MGFM技术的可压缩无粘流体与板壳结构非线性耦合高效算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车辆电动静液压自供能量式主动悬架工作机理与协调控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝尔格式原始图像的超分辨率三维几何建模技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部无网格的近距耦合旋翼流场数值模拟方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于三维差时投影法的超分辨率车辆重建算法研究

国家自然科学基金

0+阅读 · 2010年12月31日

弱酸介质中正硅酸乙酯与稀土共水解新路线直接合成水热稳定的骨架稀土杂原子沸石

国家自然科学基金

0+阅读 · 2009年12月31日

A Lightweight Domain Adversarial Neural Network Based on Knowledge Distillation for EEG-based Cross-subject Emotion Recognition

Arxiv

0+阅读 · 2023年5月12日

Efficient Search of Comprehensively Robust Neural Architectures via Multi-fidelity Evaluation

Arxiv

0+阅读 · 2023年5月12日

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

Arxiv

0+阅读 · 2023年5月10日

Multi-Source Contrastive Learning from Musical Audio

Arxiv

0+阅读 · 2023年5月10日

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

Arxiv

0+阅读 · 2023年5月10日

Statistical Plasmode Simulations -- Potentials, Challenges and Recommendations

Arxiv

0+阅读 · 2023年5月10日

Fast Event-based Double Integral for Real-time Robotics

Arxiv

0+阅读 · 2023年5月10日

VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges

Arxiv

11+阅读 · 2022年12月26日

Graph Neural Networks for Recommender Systems: Challenges, Methods, and Directions

Arxiv

31+阅读 · 2021年9月27日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

VIP会员

文章信息

相关主题

最新内容

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

3+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

3+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

7+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

7+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

8+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

12+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

10+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

9+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

27+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

8+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

13+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

10+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

13+阅读 · 6月12日

相关VIP内容

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

【CVPR 2022】基于Tracklet查询和建议的高效视频实例分割，Efficient Video Instance Segmentation via Tracklet Query and Proposal

专知会员服务

16+阅读 · 2022年3月3日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

神经网络序列数据建模，229页ppt，Modeling Sequential Data with Neural Nets

专知会员服务

67+阅读 · 2020年7月25日

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

【伯克利】最新《生成式对抗网络》技术综述课程，257页ppt带你学习GAN进展

专知会员服务

195+阅读 · 2020年5月3日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

俄乌战场地面机器人如何改写战争规则

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

简评 | Video Action Recognition 的近期进展

简评 | Video Action Recognition 的近期进展

极市平台

20+阅读 · 2019年4月21日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

【论文推荐】最新六篇主题模型相关论文—动态主题模型、主题趋势、大规模并行采样、随机采样、非参主题建模

专知

14+阅读 · 2018年6月24日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

相关论文

A Lightweight Domain Adversarial Neural Network Based on Knowledge Distillation for EEG-based Cross-subject Emotion Recognition

Arxiv

0+阅读 · 2023年5月12日

Efficient Search of Comprehensively Robust Neural Architectures via Multi-fidelity Evaluation

Arxiv

0+阅读 · 2023年5月12日

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer

Arxiv

0+阅读 · 2023年5月10日

Multi-Source Contrastive Learning from Musical Audio

Arxiv

0+阅读 · 2023年5月10日

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

Arxiv

0+阅读 · 2023年5月10日

Statistical Plasmode Simulations -- Potentials, Challenges and Recommendations

Arxiv

0+阅读 · 2023年5月10日

Fast Event-based Double Integral for Real-time Robotics

Arxiv

0+阅读 · 2023年5月10日

VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges

Arxiv

11+阅读 · 2022年12月26日

Graph Neural Networks for Recommender Systems: Challenges, Methods, and Directions

Arxiv

31+阅读 · 2021年9月27日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

相关基金

不同来流条件下旋转圆球绕流特性研究与非定常气动模型构建

国家自然科学基金

1+阅读 · 2015年12月31日

围限颗粒介质差速器自适应传动机理与性能优化

国家自然科学基金

0+阅读 · 2014年12月31日

全太阳光谱驱动纳米结构OMS-2催化净化挥发性有机污染物

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于MGFM技术的可压缩无粘流体与板壳结构非线性耦合高效算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

车辆电动静液压自供能量式主动悬架工作机理与协调控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝尔格式原始图像的超分辨率三维几何建模技术

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部无网格的近距耦合旋翼流场数值模拟方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于三维差时投影法的超分辨率车辆重建算法研究

国家自然科学基金

0+阅读 · 2010年12月31日

弱酸介质中正硅酸乙酯与稀土共水解新路线直接合成水热稳定的骨架稀土杂原子沸石

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员