There has been a longstanding belief that generation can facilitate a true understanding of visual data. In line with this, we revisit generatively pre-training visual representations in light of recent interest in denoising diffusion models. While directly pre-training with diffusion models does not produce strong representations, we condition diffusion models on masked input and formulate diffusion models as masked autoencoders (DiffMAE). Our approach is capable of (i) serving as a strong initialization for downstream recognition tasks, (ii) conducting high-quality image inpainting, and (iii) being effortlessly extended to video where it produces state-of-the-art classification accuracy. We further perform a comprehensive study on the pros and cons of design choices and build connections between diffusion models and masked autoencoders.


翻译:长久以来,人们一直相信生成过程能够促进对视觉数据的真正理解。基于这一理念,我们结合近期对去噪扩散模型的兴趣,重新审视了视觉表征的生成式预训练。虽然直接使用扩散模型进行预训练无法产生强表征,但我们通过将扩散模型条件化于掩码输入,将其构建为掩码自编码器(DiffMAE)。我们的方法能够:(i)作为下游识别任务的强初始化基础,(ii)实现高质量图像修复,(iii)轻松扩展至视频领域,并在分类精度上达到领先水平。我们进一步对设计选择的利弊进行了全面研究,并建立了扩散模型与掩码自编码器之间的关联。

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
21+阅读 · 2022年4月21日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
12+阅读 · 2021年10月28日
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
48+阅读 · 2021年9月27日
专知会员服务
49+阅读 · 2021年4月24日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2022年10月27日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
14+阅读 · 2022年8月25日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关论文
Arxiv
15+阅读 · 2022年10月27日
Arxiv
30+阅读 · 2022年9月10日
Arxiv
14+阅读 · 2022年8月25日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
21+阅读 · 2019年8月21日
相关基金
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员