Correlational Image Modeling for Self-Supervised Visual Pre-Training - 专知论文

会员服务 ·

0

图像建模 · 关联 · 上下文 · 示例 · 视觉预训练 ·

2023 年 3 月 30 日

Correlational Image Modeling for Self-Supervised Visual Pre-Training

翻译：相关图像建模用于自监督视觉预训练

Wei Li,Jiahao Xie,Chen Change Loy

from arxiv, Accepted by CVPR 2023

We introduce Correlational Image Modeling (CIM), a novel and surprisingly effective approach to self-supervised visual pre-training. Our CIM performs a simple pretext task: we randomly crop image regions (exemplars) from an input image (context) and predict correlation maps between the exemplars and the context. Three key designs enable correlational image modeling as a nontrivial and meaningful self-supervisory task. First, to generate useful exemplar-context pairs, we consider cropping image regions with various scales, shapes, rotations, and transformations. Second, we employ a bootstrap learning framework that involves online and target encoders. During pre-training, the former takes exemplars as inputs while the latter converts the context. Third, we model the output correlation maps via a simple cross-attention block, within which the context serves as queries and the exemplars offer values and keys. We show that CIM performs on par or better than the current state of the art on self-supervised and transfer benchmarks.

翻译：我们提出相关图像建模（CIM），这是一种新颖且效果显著的自我监督视觉预训练方法。CIM执行一个简单的预训练任务：我们从输入图像（上下文）中随机裁剪图像区域（示例），并预测示例与上下文之间的相关图。三个关键设计使相关图像建模成为一项具有挑战性且意义深远的自监督任务。首先，为生成有用的示例-上下文对，我们考虑以不同尺度、形状、旋转和变换方式裁剪图像区域。其次，我们采用包含在线编码器和目标编码器的引导学习框架。预训练过程中，前者将示例作为输入，后者转换上下文。第三，我们通过简单的交叉注意力模块对输出的相关图进行建模，其中上下文作为查询，示例提供键和值。实验表明，CIM在自监督和迁移学习基准测试中达到或超越了当前最先进水平。

0

相关内容

图像建模

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

PaperWeekly

0+阅读 · 2022年9月25日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

缺陷主导的GaN和AlN纳米线发光微观机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

平移不变子空间的结构

国家自然科学基金

0+阅读 · 2013年12月31日

面向CAE分析的装配CAD模型全局对称性识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

最小化图像描述子敏感度的大规模图像索引及检索方法

国家自然科学基金

0+阅读 · 2012年12月31日

框架的冗余度

国家自然科学基金

0+阅读 · 2012年12月31日

面向时间不耐受患者的脑MRI图像超分辨率算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理标注的Voronoi建模与计算

国家自然科学基金

0+阅读 · 2011年12月31日

基于新型非标记功能核酸荧光探针的肿瘤标志物分析和癌症细胞的荧光成像研究

国家自然科学基金

0+阅读 · 2011年12月31日

阴离子为模板的炔银簇合物的结构与性能

国家自然科学基金

0+阅读 · 2009年12月31日

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models

Arxiv

0+阅读 · 2023年5月18日

Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding

Arxiv

0+阅读 · 2023年5月18日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

GAN-Supervised Dense Visual Alignment

Arxiv

10+阅读 · 2021年12月9日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

VIP会员

文章信息

相关主题

视觉预训练

最新内容

综述 | Memory for Large Language Models：大模型记忆机制全景

综述 | Memory for Large Language Models：大模型记忆机制全景

专知会员服务

0+阅读 · 今天14:26

博士论文 | Riemannian Deep Learning：模块、网络与几何

博士论文 | Riemannian Deep Learning：模块、网络与几何

专知会员服务

0+阅读 · 今天14:13

《越野作战环境下路径规划的多准则整数规划模型》

《越野作战环境下路径规划的多准则整数规划模型》

专知会员服务

5+阅读 · 今天8:06

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

3+阅读 · 今天8:00

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

专知会员服务

3+阅读 · 今天7:53

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

专知会员服务

7+阅读 · 今天7:49

《同步多无人机系统中的故障与通信》

《同步多无人机系统中的故障与通信》

专知会员服务

2+阅读 · 今天6:23

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

3+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

8+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

8+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

8+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

9+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

6+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

11+阅读 · 7月27日

相关VIP内容

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

语言视觉预训练语言模型揭密，Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

专知会员服务

36+阅读 · 2020年5月20日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | Riemannian Deep Learning：模块、网络与几何

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

综述 | Memory for Large Language Models：大模型记忆机制全景

《越野作战环境下路径规划的多准则整数规划模型》

相关资讯

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

自监督榜首！字节跳动提出视觉预训练模型dBOT，重新审视Masked Image Modeling

PaperWeekly

0+阅读 · 2022年9月25日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Single-Shot Object Detection with Enriched Semantics

Single-Shot Object Detection with Enriched Semantics

统计学习与视觉计算组

14+阅读 · 2018年8月29日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

【论文推荐】最新5篇图像分割相关论文—条件随机场和深度特征学习、移动端网络、长期视觉定位、主动学习、主动轮廓模型、生成对抗性网络

专知

13+阅读 · 2018年1月23日

相关论文

Annotation-free Audio-Visual Segmentation

Arxiv

0+阅读 · 2023年5月19日

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models

Arxiv

0+阅读 · 2023年5月18日

Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding

Arxiv

0+阅读 · 2023年5月18日

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Arxiv

11+阅读 · 2021年12月16日

GAN-Supervised Dense Visual Alignment

Arxiv

10+阅读 · 2021年12月9日

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark

Arxiv

14+阅读 · 2021年11月11日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

Arxiv

13+阅读 · 2020年7月3日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

相关基金

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

缺陷主导的GaN和AlN纳米线发光微观机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

平移不变子空间的结构

国家自然科学基金

0+阅读 · 2013年12月31日

面向CAE分析的装配CAD模型全局对称性识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

最小化图像描述子敏感度的大规模图像索引及检索方法

国家自然科学基金

0+阅读 · 2012年12月31日

框架的冗余度

国家自然科学基金

0+阅读 · 2012年12月31日

面向时间不耐受患者的脑MRI图像超分辨率算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

地理标注的Voronoi建模与计算

国家自然科学基金

0+阅读 · 2011年12月31日

基于新型非标记功能核酸荧光探针的肿瘤标志物分析和癌症细胞的荧光成像研究

国家自然科学基金

0+阅读 · 2011年12月31日

阴离子为模板的炔银簇合物的结构与性能

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员