We present AHOY, a method for reconstructing complete, animatable 3D Gaussian avatars from in-the-wild monocular video despite heavy occlusion. Existing methods assume unoccluded input-a fully visible subject, often in a canonical pose-excluding the vast majority of real-world footage where people are routinely occluded by furniture, objects, or other people. Reconstructing from such footage poses fundamental challenges: large body regions may never be observed, and multi-view supervision per pose is unavailable. We address these challenges with four contributions: (i) a hallucination-as-supervision pipeline that uses identity-finetuned diffusion models to generate dense supervision for previously unobserved body regions; (ii) a two-stage canonical-to-pose-dependent architecture that bootstraps from sparse observations to full pose-dependent Gaussian maps; (iii) a map-pose/LBS-pose decoupling that absorbs multi-view inconsistencies from the generated data; (iv) a head/body split supervision strategy that preserves facial identity. We evaluate on YouTube videos and on multi-view capture data with significant occlusion and demonstrate state-of-the-art reconstruction quality. We also demonstrate that the resulting avatars are robust enough to be animated with novel poses and composited into 3DGS scenes captured using cell-phone video. Our project page is available at https://miraymen.github.io/ahoy/


翻译:我们提出AHOY方法,用于从存在严重遮挡的非受控单目视频中重建完整且可动画化的3D高斯化身。现有方法假设输入无遮挡——即目标完全可见且通常处于标准姿态——这排除了大多数人日常被家具、物体或他人遮挡的真实场景视频。从这类视频重建面临根本性挑战:大面积身体区域可能从未被观测到,且每种姿态缺乏多视角监督。我们通过四项创新应对这些挑战:(i) 基于幻觉监督的流水线,利用身份微调扩散模型生成先前未观测身体区域的密集监督信号;(ii) 两阶段标准姿态到姿态依赖架构,从稀疏观测引导生成完整姿态依赖高斯图;(iii) 地图姿态/LBS姿态解耦策略,吸收生成数据中的多视角不一致性;(iv) 头身分离监督策略,保持面部身份特征。我们在YouTube视频及存在显著遮挡的多视角采集数据上进行评估,证明了最先进的重建质量。同时验证了所获化身对新颖姿态的鲁棒动画能力,以及可将其合成至手机视频拍摄的3DGS场景中。项目页面详见https://miraymen.github.io/ahoy/

0
下载
关闭预览

相关内容

【NeurIPS2025】Instant4D:高效的4D高斯喷溅方法
专知会员服务
7+阅读 · 2025年10月2日
【CVPR2024】VastGaussian: 用于大型场景重建的巨大三维高斯
【CMU博士论文】开放环境视频中的多人三维重建,184页pdf
专知会员服务
34+阅读 · 2023年10月11日
【CMU博士论文】高斯表示的可微渲染和优化,198页pdf
专知会员服务
27+阅读 · 2023年10月5日
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
人工智能前沿讲习班
19+阅读 · 2019年5月4日
目前最好的开源人脸3D重建与密集对齐算法
计算机视觉life
17+阅读 · 2019年4月24日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员