This work aims to improve the applicability of diffusion models in realistic image restoration. Specifically, we enhance the diffusion model in several aspects such as network architecture, noise level, denoising steps, training image size, and optimizer/scheduler. We show that tuning these hyperparameters allows us to achieve better performance on both distortion and perceptual scores. We also propose a U-Net based latent diffusion model which performs diffusion in a low-resolution latent space while preserving high-resolution information from the original input for the decoding process. Compared to the previous latent-diffusion model which trains a VAE-GAN to compress the image, our proposed U-Net compression strategy is significantly more stable and can recover highly accurate images without relying on adversarial optimization. Importantly, these modifications allow us to apply diffusion models to various image restoration tasks, including real-world shadow removal, HR non-homogeneous dehazing, stereo super-resolution, and bokeh effect transformation. By simply replacing the datasets and slightly changing the noise network, our model, named Refusion, is able to deal with large-size images (e.g., 6000 x 4000 x 3 in HR dehazing) and produces good results on all the above restoration problems. Our Refusion achieves the best perceptual performance in the NTIRE 2023 Image Shadow Removal Challenge and wins 2nd place overall.


翻译:本文旨在提升扩散模型在真实图像复原任务中的适用性。具体而言,我们从网络架构、噪声水平、去噪步数、训练图像尺寸以及优化器/调度器等多个方面对扩散模型进行了改进。研究表明,调整这些超参数能够在失真度和感知质量评分上同时取得更优性能。我们提出一种基于U-Net的潜扩散模型,该模型在低分辨率潜空间执行扩散过程,同时保留原始输入的高分辨率信息用于解码阶段。相较于此前采用VAE-GAN进行图像压缩的潜扩散模型,本文提出的U-Net压缩策略具有显著更优的稳定性,可在不依赖对抗优化的情况下恢复高精度图像。关键的是,这些改进使扩散模型能够应用于多种图像复原任务,包括真实场景阴影去除、高分辨率非均匀去雾、立体超分辨率以及散景效果转换。通过简单替换数据集并微调噪声网络,本模型(命名为Refusion)可处理大尺寸图像(例如高分辨率去雾中的6000×4000×3),并在上述所有复原问题上取得优异效果。我们的Refusion在NTIRE 2023图像阴影去除挑战赛中获得最佳感知性能,并取得总排名第二。

0
下载
关闭预览

相关内容

图像修复(英语:Inpainting)指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中,这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中,图像修复又称图像插值或视频插值,指利用复杂的算法来替换已丢失、损坏的图像数据,主要替换一些小区域和瑕疵。
生成扩散模型漫谈:最优扩散方差估计(上)
PaperWeekly
0+阅读 · 2022年9月25日
基于深度学习的超分辨率图像技术一览
极市平台
17+阅读 · 2019年8月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
SRGAN论文笔记
统计学习与视觉计算组
110+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月1日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
相关资讯
生成扩散模型漫谈:最优扩散方差估计(上)
PaperWeekly
0+阅读 · 2022年9月25日
基于深度学习的超分辨率图像技术一览
极市平台
17+阅读 · 2019年8月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
SRGAN论文笔记
统计学习与视觉计算组
110+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员