Image-to-3D methods often trade off faithfulness and completeness: depth estimators are anchored to input pixels but stop at the visible surface, while image-to-3D models generate complete shapes that are often misaligned with the input. We introduce World Tracing, a generative pixel-aligned geometry representation that predicts 3D points aligned with observed pixels while completing geometry beyond the visible surface. For each input pixel, World Tracing predicts an ordered stack of camera-space 3D points, where the first layer represents the visible surface and subsequent layers represent front-to-back intersections with occluded surfaces. We instantiate this representation with a world-tracing diffusion transformer, WT-DiT, which treats multiple geometry layers as separate denoising tokens coupled through factorized and global attention. WT-DiT is trained with pixel-space flow matching and a mixed noise schedule that balances visible-surface reconstruction with occluded-geometry generation. World Tracing achieves strong performance on visible-surface reconstruction and complete geometry generation across object, scene, and dynamic benchmarks, outperforming both depth predictors and image-to-3D generators. It also preserves 2D-to-3D correspondence, enabling text-driven 3D scene editing, geometry-conditioned novel-view video synthesis, and training-free integration with textured-mesh generators.


翻译:图像到三维方法常在忠实度与完整性之间权衡:深度估计器锚定输入像素但止步于可见表面,而图像到三维模型虽能生成完整形状却常与输入存在偏差。本文提出世界追踪(World Tracing)——一种生成式像素对齐几何表征,可在预测与观测像素对齐的三维点的同时,补全可见表面之外的几何结构。对于每个输入像素,世界追踪预测一个相机空间三维点有序堆栈,其中首层表征可见表面,后续各层则按从前到后顺序表征被遮挡表面的交点。我们通过世界追踪扩散变换器(WT-DiT)实例化该表征:该模型将多层几何作为独立去噪令牌处理,并通过分解式与全局注意力机制实现耦合。WT-DiT采用像素空间流匹配与混合噪声调度进行训练,在可见表面重建与遮挡几何生成之间取得平衡。在物体、场景及动态基准测试中,世界追踪在可见表面重建与完整几何生成任务上均表现优异,性能超越深度预测器与图像到三维生成器。该方法同时保持了二维到三维的对应关系,支持文本驱动的三维场景编辑、基于几何条件的新视角视频合成,以及与纹理网格生成器的免训练集成。

0
下载
关闭预览

相关内容

Surface 是微软公司( Microsoft)旗下一系列使用 Windows 10(早期为 Windows 8.X)操作系统的电脑产品,目前有 Surface、Surface Pro 和 Surface Book 三个系列。 2012 年 6 月 18 日,初代 Surface Pro/RT 由时任微软 CEO 史蒂夫·鲍尔默发布于在洛杉矶举行的记者会,2012 年 10 月 26 日上市销售。
综述|学习式3D表征最新进展与趋势
专知会员服务
9+阅读 · 6月5日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
综述|学习式3D表征最新进展与趋势
专知会员服务
9+阅读 · 6月5日
相关资讯
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
相关基金
国家自然科学基金
5+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员