Most advances in human mesh recovery (HMR) have focused on pelvis-centered recovery, overlooking metric 3D localization and detection accuracy in the camera coordinate system - two key factors for real-world applications such as human-robot interaction and social scene understanding. Current evaluation protocols often ignore these aspects, emphasizing per-person, root-centered recovery rather than camera-space perception. As a result, existing approaches rely on fixed camera assumptions or handcrafted post-processing, limiting their robustness and practical deployment. We introduce Multi-HMR 2, a simple yet robust DETR-based framework for Multi-person Camera-centric Human detection, mesh Recovery, and tracking. Multi-HMR 2 predicts a scene-consistent camera together with human meshes, enabling metric 3D localization without ground-truth intrinsics. Moreover, by distilling image-based memory features from SAM2, Multi-HMR 2 extends to tracking, achieving consistent identity association without video supervision. Despite its conceptual simplicity - no handcrafted components, no video input, and no ground-truth cameras - Multi-HMR 2 achieves state-of-the-art pelvis-centered performance while substantially improving detection accuracy and metric 3D localization.


翻译:人体网格重建(HMR)领域的大多数进展聚焦于骨盆中心重建,忽略了相机坐标系中的度量三维定位与检测精度——这两个因素在人机交互、社会场景理解等实际应用中至关重要。当前评估协议常忽视这些方面,侧重于单人根节点中心重建而非相机空间感知。因此,现有方法依赖固定相机假设或人工后处理,限制了其鲁棒性与实际部署能力。我们提出Multi-HMR 2,一种基于DETR的简洁鲁棒框架,用于多人相机中心人体检测、网格重建与跟踪。Multi-HMR 2联合预测场景一致相机与人体网格,无需真实内参即可实现度量三维定位。此外,通过从SAM2中蒸馏基于图像的记忆特征,Multi-HMR 2扩展至跟踪功能,无需视频监督即可实现一致的身份关联。尽管概念简洁(无人工组件、无视频输入、无真实相机),Multi-HMR 2在保持骨盆中心最先进性能的同时,显著提升了检测精度与度量三维定位能力。

0
下载
关闭预览

相关内容

【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
30+阅读 · 2022年3月28日
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
人体骨骼关键点检测综述
极市平台
22+阅读 · 2018年6月29日
北大新技术:利用WiFi设备进行人体行为识别!
全球人工智能
12+阅读 · 2018年2月7日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
30+阅读 · 2022年3月28日
相关资讯
计算机视觉方向简介 | 三维重建技术概述
计算机视觉life
26+阅读 · 2019年6月13日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
AI综述专栏 | 人体骨骼关键点检测综述
人工智能前沿讲习班
19+阅读 · 2018年11月7日
人体骨骼关键点检测综述
极市平台
22+阅读 · 2018年6月29日
北大新技术:利用WiFi设备进行人体行为识别!
全球人工智能
12+阅读 · 2018年2月7日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员