Estimating 3D human motion from an egocentric video sequence plays a critical role in human behavior understanding and has various applications in VR/AR. However, naively learning a mapping between egocentric videos and human motions is challenging, because the user's body is often unobserved by the front-facing camera placed on the head of the user. In addition, collecting large-scale, high-quality datasets with paired egocentric videos and 3D human motions requires accurate motion capture devices, which often limit the variety of scenes in the videos to lab-like environments. To eliminate the need for paired egocentric video and human motions, we propose a new method, Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo), which decomposes the problem into two stages, connected by the head motion as an intermediate representation. EgoEgo first integrates SLAM and a learning approach to estimate accurate head motion. Subsequently, leveraging the estimated head pose as input, EgoEgo utilizes conditional diffusion to generate multiple plausible full-body motions. This disentanglement of head and body pose eliminates the need for training datasets with paired egocentric videos and 3D human motion, enabling us to leverage large-scale egocentric video datasets and motion capture datasets separately. Moreover, for systematic benchmarking, we develop a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric videos and human motion. On both ARES and real data, our EgoEgo model performs significantly better than the current state-of-the-art methods.


翻译:从自我中心视频序列中估计3D人体运动在人类行为理解中扮演关键角色,并广泛应用于VR/AR领域。然而,简单学习自我中心视频与人体运动之间的映射关系极具挑战性,因为用户的身体通常未被置于头部的正面摄像头所观测。此外,收集包含配对自我中心视频与3D人体运动的大规模高质量数据集需要精密的运动捕捉设备,这往往将视频场景限制在类似实验室的环境中。为消除对配对自我中心视频与人体运动的需求,我们提出新方法EgoEgo(基于自头部姿态估计的自身身体姿态估计),该方法将问题分解为两个阶段,通过头部运动作为中间表征进行连接。EgoEgo首先融合SLAM与学习方法估计精确的头部运动,随后以估计的头部姿态为输入,利用条件扩散生成多个合理的全身运动。这种头部与身体姿态的解耦消除了对训练数据集中配对自我中心视频与3D人体运动的需求,使我们能够分别利用大规模自我中心视频数据集和运动捕捉数据集。此外,为进行系统性基准测试,我们构建了包含配对自我中心视频与人体运动的合成数据集ARES(AMASS-Replica-Ego-Syn)。在ARES与真实数据上,我们的EgoEgo模型均显著优于当前最先进方法。

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
60+阅读 · 2021年3月17日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
79+阅读 · 2020年3月3日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
【泡泡一分钟】变化环境下激光地图辅助视觉惯性定位
泡泡机器人SLAM
15+阅读 · 2019年5月22日
【泡泡一分钟】在CPU上进行实时无监督单目深度估计
泡泡机器人SLAM
17+阅读 · 2019年5月10日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
85+阅读 · 2022年7月16日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
3+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
3+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
3+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
7+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
7+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
专知会员服务
16+阅读 · 2021年5月13日
专知会员服务
60+阅读 · 2021年3月17日
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
79+阅读 · 2020年3月3日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员