Today's denoising diffusion models do not "denoise" in the classical sense, i.e., they do not directly predict clean images. Rather, the neural networks predict noise or a noised quantity. In this paper, we suggest that predicting clean data and predicting noised quantities are fundamentally different. According to the manifold assumption, natural data should lie on a low-dimensional manifold, whereas noised quantities do not. With this assumption, we advocate for models that directly predict clean data, which allows apparently under-capacity networks to operate effectively in very high-dimensional spaces. We show that simple, large-patch Transformers on pixels can be strong generative models: using no tokenizer, no pre-training, and no extra loss. Our approach is conceptually nothing more than "Just image Transformers", or JiT, as we call it. We report competitive results using JiT with large patch sizes of 16 and 32 on ImageNet at resolutions of 256 and 512, where predicting high-dimensional noised quantities can fail catastrophically. With our networks mapping back to the basics of the manifold, our research goes back to basics and pursues a self-contained paradigm for Transformer-based diffusion on raw natural data.


翻译:当今的去噪扩散模型并非以经典意义上的“去噪”方式工作,即它们并不直接预测干净图像。相反,神经网络预测的是噪声或含噪量。本文认为,预测干净数据与预测含噪量存在本质区别。根据流形假设,自然数据应位于低维流形上,而含噪量则不然。基于此假设,我们倡导直接预测干净数据的模型,这使得表观容量不足的网络能够在极高维空间中有效运作。我们证明,在像素上使用简单的大块Transformer即可成为强大的生成模型:无需分词器、无需预训练、无需额外损失。我们的方法在概念上无非是“仅用图像Transformer”,我们称之为JiT。我们在ImageNet数据集上以256和512分辨率使用16和32的大块尺寸报告了JiT的竞争性结果,而在这些场景下预测高维含噪量可能导致灾难性失败。通过使网络回归流形的基本原理,我们的研究回归基础,追求一种基于Transformer的、在原始自然数据上进行扩散的自洽范式。

0
下载
关闭预览

相关内容

去噪:有监督、自监督和无监督,57页ppt
专知会员服务
59+阅读 · 2023年5月3日
去噪扩散概率模型,46页ppt
专知会员服务
63+阅读 · 2023年1月4日
专知会员服务
43+阅读 · 2021年8月30日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
重新思考图卷积网络:GNN只是一种滤波器
新智元
28+阅读 · 2019年6月3日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
python代码实现图片噪声去除
凡人机器学习
13+阅读 · 2018年5月18日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
重新思考图卷积网络:GNN只是一种滤波器
新智元
28+阅读 · 2019年6月3日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
python代码实现图片噪声去除
凡人机器学习
13+阅读 · 2018年5月18日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员