Reconstructing the absolute 3D pose and shape of the hands from the user's viewpoint using a single head-mounted camera is crucial for practical egocentric interaction in AR/VR, telepresence, and hand-centric manipulation tasks, where sensing must remain compact and unobtrusive. While monocular RGB methods have made progress, they remain constrained by depth-scale ambiguity and struggle to generalize across the diverse optical configurations of head-mounted devices. As a result, models typically require extensive training on device-specific datasets, which are costly and laborious to acquire. This paper addresses these challenges by introducing EgoForce, a monocular 3D hand reconstruction framework that recovers robust, absolute 3D hand pose and its position from the user's (camera-space) viewpoint. EgoForce operates across fisheye, perspective, and distorted wide-FOV camera models using a single unified network. Our approach combines a differentiable forearm representation that stabilizes hand pose, a unified arm-hand transformer that predicts both hand and forearm geometry from a single egocentric view, mitigating depth-scale ambiguity, and a ray space closed-form solver that enables absolute 3D pose recovery across diverse head-mounted camera models. Experiments on three egocentric benchmarks show that EgoForce achieves state-of-the-art 3D accuracy, reducing camera-space MPJPE by up to 28% on the HOT3D dataset compared to prior methods and maintaining consistent performance across camera configurations. For more details, visit the project page at https://dfki-av.github.io/EgoForce.


翻译:从用户视角使用单个头戴式相机重建手部的绝对3D姿态与形状,对于增强现实/虚拟现实(AR/VR)、远程临场感以及以手部为中心的操控任务等实际自我中心交互场景至关重要,此类场景要求传感设备保持紧凑且不引人注目。尽管单目RGB方法已取得进展,但仍受限于深度尺度模糊性,并难以泛化至头戴设备多样化的光学配置。因此,模型通常需在针对特定设备的数据集上进行大量训练,而此类数据集的获取成本高昂且费时。本文通过提出EgoForce——一种单目3D手部重建框架——来解决上述挑战,该框架能从用户(相机空间)视角恢复鲁棒且绝对的3D手部姿态及其位置。EgoForce采用单一统一网络,可在鱼眼、透视及畸变宽视场(Wide-FOV)相机模型上运行。我们的方法结合了三个方面:一种可微分的前臂表示方法以稳定手部姿态;一种统一的臂手变换器(Unified Arm-Hand Transformer),可从单个自我中心视角同时预测手部与前臂几何结构,从而缓解深度尺度模糊性;以及一种射线空间闭式求解器(Ray Space Closed-Form Solver),可在多样化头戴相机模型下实现绝对3D姿态恢复。在三个自我中心基准数据集上的实验表明,EgoForce达到了最先进的3D精度:在HOT3D数据集上,相较于先前方法,其相机空间MPJPE降低了高达28%,并在不同相机配置下保持一致的性能。更多详情请访问项目页面:https://dfki-av.github.io/EgoForce。

0
下载
关闭预览

相关内容

3D是英文“Three Dimensions”的简称,中文是指三维、三个维度、三个坐标,即有长、有宽、有高,换句话说,就是立体的,是相对于只有长和宽的平面(2D)而言。
前馈式三维场景建模
专知会员服务
12+阅读 · 4月17日
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
【剑桥博士论文】单目 3D 人体重建的概率方法
专知会员服务
11+阅读 · 2025年1月31日
非刚性场景三维重建的最新趋势:最新技术
专知会员服务
19+阅读 · 2024年5月16日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
三维重建 3D reconstruction 有哪些实用算法?
极市平台
13+阅读 · 2020年2月23日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度相机原理揭秘--双目立体视觉
计算机视觉life
10+阅读 · 2017年11月7日
【前沿】凌空手势识别综述
科技导报
12+阅读 · 2017年8月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员