Denoising diffusion models represent a recent emerging topic in computer vision, demonstrating remarkable results in the area of generative modeling. A diffusion model is a deep generative model that is based on two stages, a forward diffusion stage and a reverse diffusion stage. In the forward diffusion stage, the input data is gradually perturbed over several steps by adding Gaussian noise. In the reverse stage, a model is tasked at recovering the original input data by learning to gradually reverse the diffusion process, step by step. Diffusion models are widely appreciated for the quality and diversity of the generated samples, despite their known computational burdens, i.e. low speeds due to the high number of steps involved during sampling. In this survey, we provide a comprehensive review of articles on denoising diffusion models applied in vision, comprising both theoretical and practical contributions in the field. First, we identify and present three generic diffusion modeling frameworks, which are based on denoising diffusion probabilistic models, noise conditioned score networks, and stochastic differential equations. We further discuss the relations between diffusion models and other deep generative models, including variational auto-encoders, generative adversarial networks, energy-based models, autoregressive models and normalizing flows. Then, we introduce a multi-perspective categorization of diffusion models applied in computer vision. Finally, we illustrate the current limitations of diffusion models and envision some interesting directions for future research.


翻译:去噪扩散模型代表了计算机视觉中一个新兴的研究课题,在生成建模领域展现了显著成果。扩散模型是一种深度生成模型,包含两个阶段:正向扩散阶段和反向扩散阶段。在正向扩散阶段,输入数据通过逐步添加高斯噪声而逐渐扰动;在反向阶段,模型通过学习逐步逆转扩散过程(逐步骤进行),致力于恢复原始输入数据。尽管扩散模型存在计算负担(即采样过程中因步骤较多导致速度较低),但其生成样本的质量和多样性广受认可。本综述全面梳理了应用于视觉领域的去噪扩散模型文献,涵盖该领域的理论与实际贡献。首先,我们识别并提出了三种通用扩散建模框架,分别基于去噪扩散概率模型、噪声条件得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深度生成模型(包括变分自编码器、生成对抗网络、基于能量的模型、自回归模型和归一化流)之间的关系。随后,我们介绍了应用于计算机视觉的扩散模型的多视角分类体系。最后,我们阐述了扩散模型当前的局限性,并展望了未来研究中一些有意义的方向。

4
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
深度生成模型综述
专知会员服务
52+阅读 · 2022年1月2日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
从多篇论文看扩散模型在文本生成领域的应用
PaperWeekly
0+阅读 · 2022年10月20日
「高效视觉扩散模型」 最新研究综述
专知
8+阅读 · 2022年10月20日
扩散模型在文本生成领域的应用
新智元
0+阅读 · 2022年10月13日
从大一统视角理解扩散模型(Diffusion Models)
PaperWeekly
3+阅读 · 2022年9月27日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
46+阅读 · 2022年9月6日
Transformers in Remote Sensing: A Survey
Arxiv
25+阅读 · 2022年9月2日
Arxiv
15+阅读 · 2022年1月24日
Arxiv
39+阅读 · 2021年11月11日
An Attentive Survey of Attention Models
Arxiv
44+阅读 · 2020年12月15日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
视觉的有效扩散模型综述
专知会员服务
97+阅读 · 2022年10月20日
深度生成模型综述
专知会员服务
52+阅读 · 2022年1月2日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关论文
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员