3D human mesh recovery from monocular RGB images aims to estimate anatomically plausible 3D human models for downstream applications, but remains challenging under partial or severe occlusions. Regression-based methods are efficient yet often produce implausible or inaccurate results in unconstrained scenarios, while diffusion-based methods provide strong generative priors for occluded regions but may weaken fidelity to rare poses due to over-reliance on generation. To address these limitations, we propose a brain-inspired synergistic framework that integrates the discriminative power of vision transformers with the generative capability of conditional diffusion models. Specifically, the ViT-based pathway extracts deterministic visual cues from visible regions, while the diffusion-based pathway synthesizes structurally coherent human body representations. To effectively bridge the two pathways, we design a diverse-consistent feature learning module to align discriminative features with generative priors, and a cross-attention multi-level fusion mechanism to enable bidirectional interaction across semantic levels. Experiments on standard benchmarks demonstrate that our method achieves superior performance on key metrics and shows strong robustness in complex real-world scenarios.


翻译:从单目RGB图像恢复三维人体网格旨在为下游应用估计解剖学上合理的三维人体模型,但在部分或严重遮挡条件下仍具挑战性。基于回归的方法效率高,但在无约束场景下常产生不合理或不准确的结果;而基于扩散的方法为遮挡区域提供强生成先验,但因过度依赖生成可能导致对罕见姿态的保真度下降。为解决这些局限,我们提出一种受大脑启发的协同框架,融合视觉Transformer的判别能力与条件扩散模型的生成能力。具体而言,基于ViT的路径从可见区域提取确定性视觉线索,而基于扩散的路径合成结构连贯的人体表征。为有效连接两条路径,我们设计了多样一致性特征学习模块以对齐判别特征与生成先验,并引入跨注意力多层级融合机制实现语义层级的双向交互。标准基准实验表明,该方法在关键指标上取得优越性能,并在复杂真实场景中展现出强鲁棒性。

0
下载
关闭预览

相关内容

深度学习的多视角三维重建技术综述
专知会员服务
23+阅读 · 2025年6月7日
【剑桥博士论文】单目 3D 人体重建的概率方法
专知会员服务
11+阅读 · 2025年1月31日
【博士论文】ࣞ动态三维人体的隐式神经表示方法研究
专知会员服务
18+阅读 · 2024年11月22日
深度学习背景下的图像三维重建技术进展综述
专知会员服务
39+阅读 · 2023年9月4日
专知会员服务
56+阅读 · 2021年4月4日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员