Generating immersive 3D scenes from texts is a core task in computer vision, crucial for applications in virtual reality and game development. Despite the promise of leveraging 2D diffusion priors, existing methods suffer from spatial blindness and rely on predefined trajectories that fail to exploit the inner relationships among salient objects. Consequently, these approaches are unable to comprehend the semantic layout, preventing them from exploring the scene adaptively to infer occluded content. Moreover, current inpainting models operate in 2D image space, struggling to plausibly fill holes caused by camera motion. To address these limitations, we propose RoamScene3D, a novel framework that bridges the gap between semantic guidance and spatial generation. Our method reasons about the semantic relations among objects and produces consistent and photorealistic scenes. Specifically, we employ a vision-language model (VLM) to construct a scene graph that encodes object relations, guiding the camera to perceive salient object boundaries and plan an adaptive roaming trajectory. Furthermore, to mitigate the limitations of static 2D priors, we introduce a Motion-Injected Inpainting model that is fine-tuned on a synthetic panoramic dataset integrating authentic camera trajectories, making it adaptive to camera motion. Extensive experiments demonstrate that with semantic reasoning and geometric constraints, our method significantly outperforms state-of-the-art approaches in producing consistent and photorealistic scenes. Our code is available at https://github.com/JS-CHU/RoamScene3D.


翻译:从文本生成沉浸式3D场景是计算机视觉领域的核心任务,对于虚拟现实和游戏开发等应用至关重要。尽管利用2D扩散先验模型前景广阔,但现有方法存在空间盲区,且依赖于预定义轨迹,未能充分利用显著对象间的内在关联。因此,这些方法无法理解语义布局,从而无法自适应地探索场景以推断被遮挡内容。此外,当前的修复模型在2D图像空间中运行,难以合理填充由相机运动造成的空洞。为解决这些局限,我们提出了RoamScene3D,一个连接语义引导与空间生成鸿沟的新型框架。我们的方法推理对象间的语义关系,并生成一致且逼真的场景。具体而言,我们采用视觉语言模型构建编码对象关系的场景图,引导相机感知显著对象边界并规划自适应漫游轨迹。此外,为克服静态2D先验的局限,我们引入了运动注入修复模型,该模型在集成真实相机轨迹的合成全景数据集上进行了微调,使其能自适应相机运动。大量实验表明,通过语义推理与几何约束,我们的方法在生成一致且逼真的场景方面显著优于现有最先进方法。我们的代码发布于 https://github.com/JS-CHU/RoamScene3D。

0
下载
关闭预览

相关内容

三维场景生成:综述
专知会员服务
21+阅读 · 2025年5月9日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【KAUST博士论文】朝向可扩展的深度3D感知与生成,109页pdf
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
96+阅读 · 2020年6月19日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员