AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding - 专知论文

会员服务 ·

0

样本 · 场景生成 · 零样本 · 室内场景 · 奇虎 360 ·

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

翻译：AnchoredDream：基于几何锚定的零样本单视图全景室内场景生成

Runmao Yao,Junsheng Zhou,Zhen Dong,Yu-Shen Liu

Single-view indoor scene generation plays a crucial role in a range of real-world applications. However, generating a complete 360° scene from a single image remains a highly ill-posed and challenging problem. Recent approaches have made progress by leveraging diffusion models and depth estimation networks, yet they still struggle to maintain appearance consistency and geometric plausibility under large viewpoint changes, limiting their effectiveness in full-scene generation. To address this, we propose AnchoredDream, a novel zero-shot pipeline that anchors 360° scene generation on high-fidelity geometry via an appearance-geometry mutual boosting mechanism. Given a single-view image, our method first performs appearance-guided geometry generation to construct a reliable 3D scene layout. Then, we progressively generate the complete scene through a series of modules: warp-and-inpaint, warp-and-refine, post-optimization, and a novel Grouting Block, which ensures seamless transitions between the input view and generated regions. Extensive experiments demonstrate that AnchoredDream outperforms existing methods by a large margin in both appearance consistency and geometric plausibility--all in a zero-shot manner. Our results highlight the potential of geometric grounding for high-quality, zero-shot single-view scene generation.

翻译：单视图室内场景生成在众多实际应用中具有关键作用。然而，从单张图像生成完整的360°场景仍是一个高度不适定且极具挑战性的问题。现有方法通过结合扩散模型与深度估计网络取得了一定进展，但在大视角变化下仍难以保持外观一致性与几何合理性，限制了其在全场景生成中的有效性。为此，我们提出AnchoredDream——一种新颖的零样本生成流程，通过外观-几何互增强机制，将360°场景生成锚定于高保真几何结构之上。给定单视图图像，本方法首先执行外观引导的几何生成以构建可靠的三维场景布局；随后通过一系列模块渐进式生成完整场景：包括扭曲修补模块、扭曲优化模块、后优化模块以及新颖的填缝模块，该模块能确保输入视角区域与生成区域间的无缝过渡。大量实验表明，AnchoredDream在外观一致性与几何合理性方面均显著超越现有方法，且完全以零样本方式实现。我们的研究结果凸显了几何锚定技术在高质量零样本单视图场景生成中的潜力。

0

相关内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

专知会员服务

12+阅读 · 2025年1月29日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

【博士论文】多视光场光线空间几何模型研究

【博士论文】多视光场光线空间几何模型研究

专知会员服务

24+阅读 · 2021年12月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

矢栅混合的室内三维导航网络模型

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

地理学视角下的室内三维场景日照分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构光场照明的单像素成像技术及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

Arxiv

0+阅读 · 2月6日

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月23日

360Anything: Geometry-Free Lifting of Images and Videos to 360°

Arxiv

0+阅读 · 1月22日

PanoDreamer: Optimization-Based Single Image to 360 3D Scene With Diffusion

Arxiv

0+阅读 · 1月21日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

0+阅读 · 今天16:48

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

0+阅读 · 今天16:47

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

3+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

3+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

相关VIP内容

【博士论文】室内场景三维重建的基于学习的方法

【博士论文】室内场景三维重建的基于学习的方法

专知会员服务

11+阅读 · 2月16日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

【ICLR2025】CUBEDIFF：将基于扩散的图像模型重新用于全景生成

专知会员服务

12+阅读 · 2025年1月29日

【HKUST博士论文】单视图图像的高质量3D生成

【HKUST博士论文】单视图图像的高质量3D生成

专知会员服务

15+阅读 · 2025年1月21日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

【CVPR 2022】单目3D语义场景完成框架，MonoScene: Monocular 3D Semantic Scene Completion

专知会员服务

16+阅读 · 2022年3月3日

【博士论文】多视光场光线空间几何模型研究

【博士论文】多视光场光线空间几何模型研究

专知会员服务

24+阅读 · 2021年12月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

西电最新《场景图生成SGG》全面综述论文，阐述总结138项工作

专知

13+阅读 · 2022年1月4日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉方向简介 | 多视角立体视觉MVS

计算机视觉life

15+阅读 · 2019年10月10日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

全景分割任务介绍及其最新进展【附PPT与视频资料】

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉方向简介 | 深度相机室内实时稠密三维重建

计算机视觉life

17+阅读 · 2018年5月23日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

干货｜全景视频拼接的关键技术分析

干货｜全景视频拼接的关键技术分析

全球人工智能

13+阅读 · 2017年7月15日

相关论文

DreamAnywhere: Object-Centric Panoramic 3D Scene Generation

Arxiv

0+阅读 · 2月17日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches

Arxiv

0+阅读 · 2月6日

MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments

Arxiv

0+阅读 · 2月4日

GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Arxiv

0+阅读 · 1月27日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月23日

360Anything: Geometry-Free Lifting of Images and Videos to 360°

Arxiv

0+阅读 · 1月22日

PanoDreamer: Optimization-Based Single Image to 360 3D Scene With Diffusion

Arxiv

0+阅读 · 1月21日

SceneFoundry: Generating Interactive Infinite 3D Worlds

Arxiv

0+阅读 · 1月16日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

矢栅混合的室内三维导航网络模型

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

多视环境下基于变分水平集的场景流估计

国家自然科学基金

0+阅读 · 2015年12月31日

地理学视角下的室内三维场景日照分析模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构光场照明的单像素成像技术及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员