Acquiring labeled datasets for 3D human mesh estimation is challenging due to depth ambiguities and the inherent difficulty of annotating 3D geometry from monocular images. Existing datasets are either real, with manually annotated 3D geometry and limited scale, or synthetic, rendered from 3D engines that provide precise labels but suffer from limited photorealism, low diversity, and high production costs. In this work, we explore a third path: generated data. We introduce PoseDreamer, a novel pipeline that leverages diffusion models to generate large-scale synthetic datasets with 3D mesh annotations. Our approach combines controllable image generation with Direct Preference Optimization for control alignment, curriculum-based hard sample mining, and multi-stage quality filtering. Together, these components naturally maintain correspondence between 3D labels and generated images, while prioritizing challenging samples to maximize dataset utility. Using PoseDreamer, we generate more than 500,000 high-quality synthetic samples, achieving a 76% improvement in image-quality metrics compared to rendering-based datasets. Models trained on PoseDreamer achieve performance comparable to or superior to those trained on real-world and traditional synthetic datasets. In addition, combining PoseDreamer with synthetic datasets results in better performance than combining real-world and synthetic datasets, demonstrating the complementary nature of our dataset. We will release the full dataset and generation code.


翻译:获取用于三维人体网格估计的标注数据集极具挑战性,其原因在于深度歧义性以及从单目图像标注三维几何结构的固有困难。现有数据集要么是真实数据集(人工标注三维几何结构且规模有限),要么是合成数据集(通过三维引擎渲染生成并提供精确标签,但存在逼真度不足、多样性低以及生产成本高的问题)。本文探索了第三条路径:生成数据。我们提出PoseDreamer,一种创新性管线,利用扩散模型生成大规模带有三维网格标注的合成数据集。本方法将可控图像生成与用于控制对齐的直接偏好优化、基于课程学习的困难样本挖掘以及多阶段质量过滤相结合。这些组件自然地保持了三维标签与生成图像之间的对应关系,同时优先处理挑战性样本以最大化数据集效用。基于PoseDreamer,我们生成了超过50万张高质量合成样本,与基于渲染的数据集相比,图像质量指标提升了76%。使用PoseDreamer训练的模型在性能上可媲美甚至超越基于真实世界和传统合成数据集训练的模型。此外,将PoseDreamer与合成数据集结合使用,其表现优于真实世界数据集与合成数据集的组合,充分展示了我们数据集的互补特性。我们将完整发布该数据集及生成代码。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
计算机视觉方向简介 | 人体姿态估计
计算机视觉life
28+阅读 · 2019年6月6日
深度学习人体姿态估计算法综述
AI前线
25+阅读 · 2019年5月19日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
40+阅读 · 2020年12月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员