Recently, Transformer architecture has been introduced into image restoration to replace convolution neural network (CNN) with surprising results. Considering the high computational complexity of Transformer with global attention, some methods use the local square window to limit the scope of self-attention. However, these methods lack direct interaction among different windows, which limits the establishment of long-range dependencies. To address the above issue, we propose a new image restoration model, Cross Aggregation Transformer (CAT). The core of our CAT is the Rectangle-Window Self-Attention (Rwin-SA), which utilizes horizontal and vertical rectangle window attention in different heads parallelly to expand the attention area and aggregate the features cross different windows. We also introduce the Axial-Shift operation for different window interactions. Furthermore, we propose the Locality Complementary Module to complement the self-attention mechanism, which incorporates the inductive bias of CNN (e.g., translation invariance and locality) into Transformer, enabling global-local coupling. Extensive experiments demonstrate that our CAT outperforms recent state-of-the-art methods on several image restoration applications. The code and models are available at https://github.com/zhengchen1999/CAT.


翻译:近年来,Transformer 架构被引入图像恢复领域以替代卷积神经网络(CNN),并取得了令人惊讶的效果。考虑到具有全局注意力的 Transformer 计算复杂度高,一些方法采用局部方形窗口来限制自注意力的范围。然而,这些方法缺乏不同窗口间的直接交互,限制了长距离依赖关系的建立。为解决上述问题,我们提出一种新的图像恢复模型——交叉聚合 Transformer(CAT)。CAT 的核心是矩形窗口自注意力(Rwin-SA),该机制在不同头中并行使用水平和垂直矩形窗口注意力,以扩展注意力区域并聚合跨窗口特征。我们还引入了轴向移位操作以实现不同窗口间的交互。此外,我们提出局部互补模块来补充自注意力机制,该模块将 CNN 的归纳偏置(如平移不变性和局部性)融入 Transformer,实现全局-局部耦合。大量实验表明,我们的 CAT 在多个图像恢复应用中优于近期最先进的方法。代码和模型已开源在 https://github.com/zhengchen1999/CAT。

1
下载
关闭预览

相关内容

用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
图像分割二十年,盘点影响力最大的10篇论文
专知会员服务
45+阅读 · 2022年2月7日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
76+阅读 · 2022年1月20日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月14日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
0+阅读 · 2023年5月10日
Arxiv
21+阅读 · 2018年5月23日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
2+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
9+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
6+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员