基于DDIM反演的新视角合成 (Novel View Synthesis using DDIM Inversion) - 专知论文

会员服务 ·

0

合成 · 潜在 · 表示 · 潜在表示 · 重建 ·

Novel View Synthesis using DDIM Inversion

翻译：基于DDIM反演的新视角合成

Sehajdeep Singh,A V Subramanyam,Aditya Gupta,Sahil Gupta

Synthesizing novel views from a single input image is a challenging task. It requires extrapolating the 3D structure of a scene while inferring details in occluded regions, and maintaining geometric consistency across viewpoints. Many existing methods must fine-tune large diffusion backbones using multiple views or train a diffusion model from scratch, which is extremely expensive. Additionally, they suffer from blurry reconstruction and poor generalization. This gap presents the opportunity to explore an explicit lightweight view translation framework that can directly utilize the high-fidelity generative capabilities of a pretrained diffusion model while reconstructing a scene from a novel view. Given the DDIM-inverted latent of a single input image, we employ a camera pose-conditioned translation U-Net, TUNet, to predict the inverted latent corresponding to the desired target view. However, the image sampled using the predicted latent may result in a blurry reconstruction. To this end, we propose a novel fusion strategy that exploits the inherent noise correlation structure observed in DDIM inversion. The proposed fusion strategy helps preserve the texture and fine-grained details. To synthesize the novel view, we use the fused latent as the initial condition for DDIM sampling, leveraging the generative prior of the pretrained diffusion model. Extensive experiments on MVImgNet demonstrate that our method outperforms existing methods.

翻译：从单张输入图像合成新视角是一项具有挑战性的任务。它需要在推断被遮挡区域细节的同时，外推场景的三维结构，并保持跨视角的几何一致性。许多现有方法必须使用多视角对大型扩散主干进行微调，或从头训练扩散模型，这极其昂贵。此外，它们存在重建模糊和泛化能力差的问题。这一差距为探索一种显式的轻量级视角转换框架提供了机会，该框架能够在重建新视角场景时，直接利用预训练扩散模型的高保真生成能力。给定单张输入图像的DDIM反演潜在表示，我们采用一个以相机姿态为条件的转换U-Net（TUNet）来预测对应于目标视角的反演潜在表示。然而，使用预测的潜在表示采样得到的图像可能导致模糊的重建。为此，我们提出了一种新颖的融合策略，该策略利用了在DDIM反演中观察到的固有噪声相关性结构。所提出的融合策略有助于保留纹理和细粒度细节。为了合成新视角，我们将融合后的潜在表示作为DDIM采样的初始条件，从而利用预训练扩散模型的生成先验。在MVImgNet上进行的大量实验表明，我们的方法优于现有方法。

0

相关内容

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

专知会员服务

11+阅读 · 2025年9月9日

【伯克利博士论文】面向大规模视图合成的深度生成先验

【伯克利博士论文】面向大规模视图合成的深度生成先验

专知会员服务

13+阅读 · 2025年9月3日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

32+阅读 · 2024年10月9日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

32+阅读 · 2024年5月16日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

Dynamic Novel View Synthesis in High Dynamic Range

Arxiv

0+阅读 · 1月28日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月26日

AnyView: Synthesizing Any Novel View in Dynamic Scenes

Arxiv

0+阅读 · 1月23日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月23日

One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion

Arxiv

0+阅读 · 1月20日

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

Arxiv

0+阅读 · 1月15日

TriDF: Triplane-Accelerated Density Fields for Few-Shot Remote Sensing Novel View Synthesis

Arxiv

0+阅读 · 1月15日

Geo-NVS-w: Geometry-Aware Novel View Synthesis In-the-Wild with an SDF Renderer

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

专知会员服务

11+阅读 · 2025年9月9日

【伯克利博士论文】面向大规模视图合成的深度生成先验

【伯克利博士论文】面向大规模视图合成的深度生成先验

专知会员服务

13+阅读 · 2025年9月3日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

深度学习的多视角三维重建技术综述

深度学习的多视角三维重建技术综述

专知会员服务

20+阅读 · 2025年6月7日

三维场景生成：综述

三维场景生成：综述

专知会员服务

21+阅读 · 2025年5月9日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

三维视觉中的扩散模型：综述

三维视觉中的扩散模型：综述

专知会员服务

32+阅读 · 2024年10月9日

【CMU博士论文】稀疏视角三维重建，147页pdf

【CMU博士论文】稀疏视角三维重建，147页pdf

专知会员服务

32+阅读 · 2024年5月16日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

【综述】《视频目标分割与跟踪》最新39页综述论文，带你了解视频分析进展

专知

54+阅读 · 2019年4月24日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

Image Captioning 36页最新综述， 161篇参考文献

Image Captioning 36页最新综述， 161篇参考文献

专知

90+阅读 · 2018年10月23日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

相关论文

Dynamic Novel View Synthesis in High Dynamic Range

Arxiv

0+阅读 · 1月28日

Physics-Aware Novel-View Acoustic Synthesis with Vision-Language Priors and 3D Acoustic Environment Modeling

Arxiv

0+阅读 · 1月27日

R-Meshfusion: Reinforcement Learning Powered Sparse-View Mesh Reconstruction with Diffusion Priors

Arxiv

0+阅读 · 1月27日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月26日

AnyView: Synthesizing Any Novel View in Dynamic Scenes

Arxiv

0+阅读 · 1月23日

AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding

Arxiv

0+阅读 · 1月23日

One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion

Arxiv

0+阅读 · 1月20日

WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

Arxiv

0+阅读 · 1月15日

TriDF: Triplane-Accelerated Density Fields for Few-Shot Remote Sensing Novel View Synthesis

Arxiv

0+阅读 · 1月15日

Geo-NVS-w: Geometry-Aware Novel View Synthesis In-the-Wild with an SDF Renderer

Arxiv

0+阅读 · 1月13日

相关基金

天元数学交流项目“光声与超声联合成像中的相关反演理论及其算法的研究”

国家自然科学基金

2+阅读 · 2017年12月31日

多特征驱动的彩色多聚焦图像融合理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

斜模式高光谱成像的超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于DEM样本的交互式地形合成方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员