深度引导的度量感知时序一致性在单目视频人体网格恢复中的应用 (Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery) - 专知论文

会员服务 ·

0

时序 · 度量 · 一致 · 时序一致性 · 视频 ·

Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery

翻译：深度引导的度量感知时序一致性在单目视频人体网格恢复中的应用

Jiaxin Cen,Xudong Mao,Guanghui Yue,Wei Zhou,Ruomei Wang,Fan Zhou,Baoquan Zhao

Monocular video human mesh recovery faces fundamental challenges in maintaining metric consistency and temporal stability due to inherent depth ambiguities and scale uncertainties. While existing methods rely primarily on RGB features and temporal smoothing, they struggle with depth ordering, scale drift, and occlusion-induced instabilities. We propose a comprehensive depth-guided framework that achieves metric-aware temporal consistency through three synergistic components: A Depth-Guided Multi-Scale Fusion module that adaptively integrates geometric priors with RGB features via confidence-aware gating; A Depth-guided Metric-Aware Pose and Shape (D-MAPS) estimator that leverages depth-calibrated bone statistics for scale-consistent initialization; A Motion-Depth Aligned Refinement (MoDAR) module that enforces temporal coherence through cross-modal attention between motion dynamics and geometric cues. Our method achieves superior results on three challenging benchmarks, demonstrating significant improvements in robustness against heavy occlusion and spatial accuracy while maintaining computational efficiency.

翻译：单目视频人体网格恢复面临保持度量一致性与时序稳定性的根本挑战，这源于固有的深度歧义与尺度不确定性。现有方法主要依赖RGB特征与时序平滑技术，但在深度排序、尺度漂移以及遮挡引起的稳定性问题上仍存在困难。本文提出一个全面的深度引导框架，通过三个协同组件实现度量感知的时序一致性：一个深度引导的多尺度融合模块，通过置信感知门控自适应地整合几何先验与RGB特征；一个深度引导的度量感知姿态与形状估计器，利用深度校准的骨骼统计数据进行尺度一致初始化；一个运动-深度对齐优化模块，通过运动动态与几何线索间的跨模态注意力强化时序连贯性。本方法在三个具有挑战性的基准测试中取得了优越的结果，在保持计算效率的同时，显著提升了针对严重遮挡的鲁棒性与空间精度。

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【博士论文】基于深度学习的单目场景深度估计方法研究

【博士论文】基于深度学习的单目场景深度估计方法研究

专知会员服务

57+阅读 · 2021年12月8日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

基于深度学习的单幅图像超分辨率重建算法综述

专知会员服务

34+阅读 · 2021年2月7日

基于深度学习的面部修复技术综述

专知会员服务

22+阅读 · 2021年1月5日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡一分钟】基于几何约束的单目视觉里程计尺度恢复

【泡泡一分钟】基于几何约束的单目视觉里程计尺度恢复

泡泡机器人SLAM

10+阅读 · 2019年6月6日

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

泡泡机器人SLAM

18+阅读 · 2019年4月30日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一维光谱恢复与海量光谱红移自动测量方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于同场景多源数据先验信息的遥感图像半盲恢复研究

国家自然科学基金

1+阅读 · 2014年12月31日

Multi-Dimensional Visual Data Recovery: Scale-Aware Tensor Modeling and Accelerated Randomized Computation

Arxiv

0+阅读 · 2月13日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction

Arxiv

0+阅读 · 2月3日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

TPGDiff: Hierarchical Triple-Prior Guided Diffusion for Image Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

时序一致性

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

【CVPR 2022】基于实例深度估计的统一深度感知全景分割 PanopticDepth: Per-Instance Depth Estimation for Unified Depth-Aware Panoptic Segmentation

专知会员服务

18+阅读 · 2022年3月19日

【博士论文】基于深度学习的单目场景深度估计方法研究

【博士论文】基于深度学习的单目场景深度估计方法研究

专知会员服务

57+阅读 · 2021年12月8日

【CVPR2021】基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

专知会员服务

18+阅读 · 2021年3月23日

基于深度学习的单幅图像超分辨率重建算法综述

专知会员服务

34+阅读 · 2021年2月7日

基于深度学习的面部修复技术综述

专知会员服务

22+阅读 · 2021年1月5日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

【泡泡一分钟】基于几何约束的单目视觉里程计尺度恢复

【泡泡一分钟】基于几何约束的单目视觉里程计尺度恢复

泡泡机器人SLAM

10+阅读 · 2019年6月6日

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

泡泡机器人SLAM

18+阅读 · 2019年4月30日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

相关论文

Multi-Dimensional Visual Data Recovery: Scale-Aware Tensor Modeling and Accelerated Randomized Computation

Arxiv

0+阅读 · 2月13日

ShapeGaussian: High-Fidelity 4D Human Reconstruction in Monocular Videos via Vision Priors

Arxiv

0+阅读 · 2月5日

From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction

Arxiv

0+阅读 · 2月3日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction

Arxiv

0+阅读 · 1月29日

TPGDiff: Hierarchical Triple-Prior Guided Diffusion for Image Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings

Arxiv

0+阅读 · 1月14日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

一维光谱恢复与海量光谱红移自动测量方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于同场景多源数据先验信息的遥感图像半盲恢复研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员