Recent masked image modeling (MIM) has received much attention in self-supervised learning (SSL), which requires the target model to recover the masked part of the input image. Although MIM-based pre-training methods achieve new state-of-the-art performance when transferred to many downstream tasks, the visualizations show that the learned representations are less separable, especially compared to those based on contrastive learning pre-training. This inspires us to think whether the linear separability of MIM pre-trained representation can be further improved, thereby improving the pre-training performance. Since MIM and contrastive learning tend to utilize different data augmentations and training strategies, combining these two pretext tasks is not trivial. In this work, we propose a novel and flexible pre-training framework, named MimCo, which combines MIM and contrastive learning through two-stage pre-training. Specifically, MimCo takes a pre-trained contrastive learning model as the teacher model and is pre-trained with two types of learning targets: patch-level and image-level reconstruction losses. Extensive transfer experiments on downstream tasks demonstrate the superior performance of our MimCo pre-training framework. Taking ViT-S as an example, when using the pre-trained MoCov3-ViT-S as the teacher model, MimCo only needs 100 epochs of pre-training to achieve 82.53% top-1 finetuning accuracy on Imagenet-1K, which outperforms the state-of-the-art self-supervised learning counterparts.


翻译:摘要:近期,掩码图像建模(MIM)在自监督学习(SSL)中受到广泛关注,该方法要求目标模型恢复输入图像中被掩码的部分。尽管基于MIM的预训练方法在迁移至多项下游任务时取得了新的最优性能,但可视化结果表明,相比于基于对比学习预训练的方法,学习到的表示可分离性较差。这启发我们思考:能否进一步提升MIM预训练表示的线性可分离性,从而改善预训练性能?由于MIM与对比学习倾向于采用不同的数据增强和训练策略,将这两种前置任务结合并非易事。本文提出了一种新颖且灵活的预训练框架,名为MimCo,通过两阶段预训练将MIM与对比学习相结合。具体而言,MimCo以预训练的对比学习模型作为教师模型,并借助两类学习目标进行预训练:图像块级和图像级重建损失。在下游任务上的大量迁移实验证明了MimCo预训练框架的优越性能。以ViT-S为例,当采用预训练的MoCov3-ViT-S作为教师模型时,MimCo仅需100轮预训练即可在ImageNet-1K上达到82.53%的Top-1微调准确率,这超越了当前最优的自监督学习方法。

0
下载
关闭预览

相关内容

【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
专知会员服务
30+阅读 · 2021年7月30日
专知会员服务
90+阅读 · 2021年6月29日
专知会员服务
39+阅读 · 2021年5月16日
BERT进展2019四篇必读论文
专知会员服务
70+阅读 · 2020年1月2日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员