Transformer recently has presented encouraging progress in computer vision. In this work, we present new baselines by improving the original Pyramid Vision Transformer (PVT v1) by adding three designs, including (1) linear complexity attention layer, (2) overlapping patch embedding, and (3) convolutional feed-forward network. With these modifications, PVT v2 reduces the computational complexity of PVT v1 to linear and achieves significant improvements on fundamental vision tasks such as classification, detection, and segmentation. Notably, the proposed PVT v2 achieves comparable or better performances than recent works such as Swin Transformer. We hope this work will facilitate state-of-the-art Transformer researches in computer vision. Code is available at https://github.com/whai362/PVT.


翻译:Transformer近期在计算机视觉领域展现出令人振奋的进展。本文通过改进原始金字塔视觉Transformer(PVT v1),添加三项设计构建了新基线模型,包括:(1) 线性复杂度注意力层,(2) 重叠补丁嵌入,以及(3) 卷积前馈网络。通过这些改进,PVT v2将PVT v1的计算复杂度降低至线性,并在分类、检测和分割等基础视觉任务上取得显著提升。值得注意的是,所提出的PVT v2取得了与Swin Transformer等近期工作相当甚至更优的性能。我们希望这项研究能推动计算机视觉领域Transformer前沿研究的发展。代码已开源至https://github.com/whai362/PVT。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA
专知会员服务
25+阅读 · 2022年3月9日
专知会员服务
30+阅读 · 2021年7月30日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
20+阅读 · 2021年4月27日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
63+阅读 · 2021年3月12日
专知会员服务
16+阅读 · 2020年7月27日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关VIP内容
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA
专知会员服务
25+阅读 · 2022年3月9日
专知会员服务
30+阅读 · 2021年7月30日
【CVPR2021】通道注意力的高效移动网络设计
专知会员服务
20+阅读 · 2021年4月27日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
22+阅读 · 2021年4月20日
专知会员服务
63+阅读 · 2021年3月12日
专知会员服务
16+阅读 · 2020年7月27日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
50+阅读 · 2020年2月26日
相关资讯
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
相关论文
Arxiv
11+阅读 · 2022年3月16日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员