One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion - 专知论文

会员服务 ·

0

前馈 · 合成 · 优化器 · 高频 · 稀疏 ·

One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion

翻译：单次优化器：通过一步扩散提升前馈式新视角合成

Yitong Dong,Qi Zhang,Minchao Jiang,Zhiqiang Wu,Qingnan Fan,Ying Feng,Huaqi Zhang,Hujun Bao,Guofeng Zhang

We present a novel framework for high-fidelity novel view synthesis (NVS) from sparse images, addressing key limitations in recent feed-forward 3D Gaussian Splatting (3DGS) methods built on Vision Transformer (ViT) backbones. While ViT-based pipelines offer strong geometric priors, they are often constrained by low-resolution inputs due to computational costs. Moreover, existing generative enhancement methods tend to be 3D-agnostic, resulting in inconsistent structures across views, especially in unseen regions. To overcome these challenges, we design a Dual-Domain Detail Perception Module, which enables handling high-resolution images without being limited by the ViT backbone, and endows Gaussians with additional features to store high-frequency details. We develop a feature-guided diffusion network, which can preserve high-frequency details during the restoration process. We introduce a unified training strategy that enables joint optimization of the ViT-based geometric backbone and the diffusion-based refinement module. Experiments demonstrate that our method can maintain superior generation quality across multiple datasets.

翻译：我们提出了一种从稀疏图像进行高保真新视角合成（NVS）的新颖框架，旨在解决近期基于视觉Transformer（ViT）主干构建的前馈式3D高斯泼溅（3DGS）方法的关键局限。虽然基于ViT的流程提供了强大的几何先验，但由于计算成本，它们通常受限于低分辨率输入。此外，现有的生成式增强方法往往是三维无关的，导致跨视角的结构不一致，尤其是在未观测区域。为克服这些挑战，我们设计了一个双域细节感知模块，使其能够处理高分辨率图像而不受ViT主干限制，并赋予高斯模型额外特征以存储高频细节。我们开发了一个特征引导的扩散网络，可在修复过程中保持高频细节。我们引入了一种统一的训练策略，使得基于ViT的几何主干与基于扩散的优化模块能够联合优化。实验表明，我们的方法在多个数据集上均能保持卓越的生成质量。

0

相关内容

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

专知会员服务

11+阅读 · 2025年9月9日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

专知会员服务

11+阅读 · 2025年3月4日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Reconstruction

Arxiv

0+阅读 · 1月28日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

Dynamic Novel View Synthesis in High Dynamic Range

Arxiv

0+阅读 · 1月28日

Matrix-free Second-order Optimization of Gaussian Splats with Residual Sampling

Arxiv

0+阅读 · 1月25日

A Step to Decouple Optimization in 3DGS

Arxiv

0+阅读 · 1月23日

Keyframe-Based Feed-Forward Visual Odometry

Arxiv

0+阅读 · 1月22日

ConeGS: Error-Guided Densification Using Pixel Cones for Improved Reconstruction With Fewer Primitives

Arxiv

0+阅读 · 1月21日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

Geo-NVS-w: Geometry-Aware Novel View Synthesis In-the-Wild with an SDF Renderer

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

俄乌冲突背景下军事特种公路运输日益增长的重要性》

俄乌冲突背景下军事特种公路运输日益增长的重要性》

专知会员服务

0+阅读 · 20分钟前

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

专知会员服务

7+阅读 · 6月10日

《基于深度强化学习的反无人机技术研究》178页

《基于深度强化学习的反无人机技术研究》178页

专知会员服务

4+阅读 · 6月10日

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

专知会员服务

4+阅读 · 6月10日

“史诗怒火”行动与“AI中心战”模式的浮现

“史诗怒火”行动与“AI中心战”模式的浮现

专知会员服务

4+阅读 · 6月10日

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

1+阅读 · 6月10日

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

2+阅读 · 6月10日

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

15+阅读 · 6月10日

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

7+阅读 · 6月10日

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

8+阅读 · 6月10日

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

6+阅读 · 6月10日

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 6月10日

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 6月10日

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

4+阅读 · 6月10日

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

4+阅读 · 6月10日

相关VIP内容

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

【ICCV2025】通过 Token 解耦与合成数据实现可扩展的基于 Transformer 的新视角合成模型

专知会员服务

11+阅读 · 2025年9月9日

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

【CVPR2025】场景飞溅：基于视频扩散模型的单图像动势三维场景生成

专知会员服务

9+阅读 · 2025年4月4日

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

【CVPR2025】DropGaussian: 稀视角高斯溅射的结构正则化

专知会员服务

9+阅读 · 2025年4月2日

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

【CVPR2025】DIFIX3D+：通过单步扩散模型改进3D重建

专知会员服务

11+阅读 · 2025年3月4日

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

【AAAI2025】FatesGS：基于深度特征一致性的高斯溅射法进行快速精确的稀疏视角表面重建

专知会员服务

10+阅读 · 2025年1月9日

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

专知会员服务

47+阅读 · 2024年8月11日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

速度优先于谨慎：NSPM-11意味着什么（将人工智能融入美国国防和情报行动最全面的声明）

技术突破与战略优势竞争：美军人工智能技术运用阶段分析

俄乌冲突背景下军事特种公路运输日益增长的重要性》

《基于深度强化学习的反无人机技术研究》178页

相关资讯

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Reconstruction

Arxiv

0+阅读 · 1月28日

VersaQ-3D: A Reconfigurable Accelerator Enabling Feed-Forward and Generalizable 3D Reconstruction via Versatile Quantization

Arxiv

0+阅读 · 1月28日

Dynamic Novel View Synthesis in High Dynamic Range

Arxiv

0+阅读 · 1月28日

Matrix-free Second-order Optimization of Gaussian Splats with Residual Sampling

Arxiv

0+阅读 · 1月25日

A Step to Decouple Optimization in 3DGS

Arxiv

0+阅读 · 1月23日

Keyframe-Based Feed-Forward Visual Odometry

Arxiv

0+阅读 · 1月22日

ConeGS: Error-Guided Densification Using Pixel Cones for Improved Reconstruction With Fewer Primitives

Arxiv

0+阅读 · 1月21日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

Geo-NVS-w: Geometry-Aware Novel View Synthesis In-the-Wild with an SDF Renderer

Arxiv

0+阅读 · 1月13日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员