DiffProxy：基于扩散生成密集代理的多视角人体网格恢复 (DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies) - 专知论文

会员服务 ·

0

多视角 · 网格 · 网格恢复 · 合成 · 合成数据 ·

DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies

翻译：DiffProxy：基于扩散生成密集代理的多视角人体网格恢复

Renke Wang,Zhenyu Zhang,Ying Tai,Jian Yang

from arxiv, Page: https://wrk226.github.io/DiffProxy.html, Code: https://github.com/wrk226/DiffProxy

Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html

翻译：从多视角图像中恢复人体网格面临一个根本性挑战：真实世界数据集包含不完美的标注真值，会引入模型训练偏差；而具有精确监督的合成数据则存在领域差距问题。本文提出DiffProxy，一种通过生成多视角一致的人体代理来实现网格恢复的新框架。DiffProxy的核心在于利用基于扩散模型的生成先验，以弥合合成数据训练与真实世界泛化之间的鸿沟。其关键创新包括：(1) 一种用于生成多视角一致、像素对齐的人体代理的多条件机制；(2) 一个结合灵活视觉提示以增强局部细节的手部细化模块；(3) 一种不确定性感知的测试时缩放方法，可在优化过程中提升对挑战性案例的鲁棒性。这些设计确保了网格恢复过程能够有效利用精确的合成真值以及基于扩散流程的生成优势。DiffProxy完全在合成数据上训练，在五个真实世界基准测试中取得了最先进的性能，尤其在存在遮挡和局部视角的挑战性场景中展现出强大的零样本泛化能力。项目页面：https://wrk226.github.io/DiffProxy.html

0

相关内容

多视角

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【NTU博士论文】基于深度生成模型的图像恢复与表示

【NTU博士论文】基于深度生成模型的图像恢复与表示

专知会员服务

19+阅读 · 2025年2月23日

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

专知会员服务

12+阅读 · 2025年1月29日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知会员服务

28+阅读 · 2023年4月4日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于深度神经网络的图像缺损修复方法综述

基于深度神经网络的图像缺损修复方法综述

专知会员服务

26+阅读 · 2021年12月18日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于Memetic多目标时变优化的全基因代谢网络重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于同场景多源数据先验信息的遥感图像半盲恢复研究

国家自然科学基金

1+阅读 · 2014年12月31日

Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery

Arxiv

0+阅读 · 2月4日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

TPGDiff: Hierarchical Triple-Prior Guided Diffusion for Image Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

Masked Modeling for Human Motion Recovery Under Occlusions

Arxiv

0+阅读 · 1月22日

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting

Arxiv

0+阅读 · 1月5日

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

【AAAI2026】MoFu：用于多主体视频生成的尺度感知调制与傅里叶融合架构

专知会员服务

9+阅读 · 1月3日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【NTU博士论文】基于深度生成模型的图像恢复与表示

【NTU博士论文】基于深度生成模型的图像恢复与表示

专知会员服务

19+阅读 · 2025年2月23日

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

专知会员服务

12+阅读 · 2025年1月29日

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

【ETHZ博士论文】朝向更好的图像和视频恢复，159页pdf

专知会员服务

19+阅读 · 2023年10月16日

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

【CVPR2023】DiffCollage:用扩散模型并行生成大量内容

专知会员服务

28+阅读 · 2023年4月4日

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

南京大学等最新《深度人脸恢复》综述论文，21页pdf全面阐述深度学习人脸恢复去噪、超分辨率、去模糊、去除伪影方法

专知会员服务

15+阅读 · 2022年11月21日

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

南大清华发布《从单目图像中恢复三维人体网格》综述论文，涵盖246篇文献全年阐述单目3D人体网格恢复研究进展

专知会员服务

33+阅读 · 2022年3月21日

基于深度神经网络的图像缺损修复方法综述

基于深度神经网络的图像缺损修复方法综述

专知会员服务

26+阅读 · 2021年12月18日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

SkeletonNet：完整的人体三维位姿重建方法

SkeletonNet：完整的人体三维位姿重建方法

计算机视觉life

21+阅读 · 2019年1月21日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

深度学习之图像超分辨重建技术

深度学习之图像超分辨重建技术

机器学习研究会

12+阅读 · 2018年3月24日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

相关论文

Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery

Arxiv

0+阅读 · 2月4日

PEAR: Pixel-aligned Expressive humAn mesh Recovery

Arxiv

0+阅读 · 1月30日

TPGDiff: Hierarchical Triple-Prior Guided Diffusion for Image Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月28日

Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data

Arxiv

0+阅读 · 1月25日

Masked Modeling for Human Motion Recovery Under Occlusions

Arxiv

0+阅读 · 1月22日

InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting

Arxiv

0+阅读 · 1月5日

DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

Arxiv

0+阅读 · 2025年12月31日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于Memetic多目标时变优化的全基因代谢网络重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏表示的多摄像机非重叠视野域运动目标跟踪方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于同场景多源数据先验信息的遥感图像半盲恢复研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员