We propose EgoGrasp, the first method to reconstruct world-space hand-object interactions (W-HOI) from egocentric monocular videos with dynamic cameras in the wild. Accurate W-HOI reconstruction is critical for understanding human behavior and enabling applications in embodied intelligence and virtual reality. However, existing hand-object interactions (HOI) methods are limited to single images or camera coordinates, failing to model temporal dynamics or consistent global trajectories. Some recent approaches attempt world-space hand estimation but overlook object poses and HOI constraints. Their performance also suffers under severe camera motion and frequent occlusions common in egocentric in-the-wild videos. To address these challenges, we introduce a multi-stage framework with a robust pre-process pipeline built on newly developed spatial intelligence models, a whole-body HOI prior model based on decoupled diffusion models, and a multi-objective test-time optimization paradigm. Our HOI prior model is template-free and scalable to multiple objects. In experiments, we prove our method achieving state-of-the-art performance in W-HOI reconstruction.


翻译:我们提出了EgoGrasp,这是首个从动态相机在自然场景下拍摄的单目第一人称视频中重建世界坐标系下手-物体交互的方法。精确的世界坐标系手-物体交互重建对于理解人类行为以及实现具身智能和虚拟现实应用至关重要。然而,现有的手-物体交互方法仅限于单张图像或相机坐标系,无法建模时序动态或一致的全局轨迹。一些近期方法尝试进行世界坐标系下的手部姿态估计,但忽略了物体姿态和手-物体交互约束。在自然场景第一人称视频中常见的剧烈相机运动和频繁遮挡下,它们的性能也受到影响。为解决这些挑战,我们引入了一个多阶段框架,该框架包含一个基于新开发的空间智能模型构建的鲁棒预处理流程、一个基于解耦扩散模型的全身手-物体交互先验模型,以及一个多目标测试时优化范式。我们的手-物体交互先验模型无需模板,并可扩展至多个物体。在实验中,我们证明了我们的方法在手-物体交互重建方面达到了最先进的性能。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员