Window-based attention has become a popular choice in vision transformers due to its superior performance, lower computational complexity, and less memory footprint. However, the design of hand-crafted windows, which is data-agnostic, constrains the flexibility of transformers to adapt to objects of varying sizes, shapes, and orientations. To address this issue, we propose a novel quadrangle attention (QA) method that extends the window-based attention to a general quadrangle formulation. Our method employs an end-to-end learnable quadrangle regression module that predicts a transformation matrix to transform default windows into target quadrangles for token sampling and attention calculation, enabling the network to model various targets with different shapes and orientations and capture rich context information. We integrate QA into plain and hierarchical vision transformers to create a new architecture named QFormer, which offers minor code modifications and negligible extra computational cost. Extensive experiments on public benchmarks demonstrate that QFormer outperforms existing representative vision transformers on various vision tasks, including classification, object detection, semantic segmentation, and pose estimation. The code will be made publicly available at \href{https://github.com/ViTAE-Transformer/QFormer}{QFormer}.


翻译:基于窗口的注意力机制因其优越的性能、较低的计算复杂度和更少的内存占用,已成为视觉Transformer中的流行选择。然而,手工设计的窗口与数据无关,限制了Transformer适应不同尺寸、形状和方向物体的灵活性。为解决这一问题,我们提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展为通用的四边形形式。该方法采用端到端可学习的四边形回归模块,预测变换矩阵,将默认窗口转换为目标四边形以进行令牌采样和注意力计算,从而使网络能够建模具有不同形状和方向的各种目标,并捕获丰富的上下文信息。我们将QA集成到普通和分层视觉Transformer中,构建名为QFormer的新架构,该架构仅需少量代码修改且额外计算成本可忽略。在公共基准上的大量实验表明,QFormer在多种视觉任务(包括分类、目标检测、语义分割和姿态估计)上优于现有代表性视觉Transformer。代码将在https://github.com/ViTAE-Transformer/QFormer 公开。

1
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
专知会员服务
23+阅读 · 2021年9月20日
专知会员服务
18+阅读 · 2021年9月15日
专知会员服务
30+阅读 · 2021年7月30日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
17+阅读 · 2021年3月29日
An Attentive Survey of Attention Models
Arxiv
44+阅读 · 2020年12月15日
VIP会员
最新内容
乌克兰战场背后的新武器
专知会员服务
3+阅读 · 今天4:55
基于博弈论的陆军人机协同(长文报告)
专知会员服务
5+阅读 · 今天1:54
美国陆军航空兵:以愿景引领转型
专知会员服务
4+阅读 · 今天1:38
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
以人工智能为中心的指挥控制
专知会员服务
5+阅读 · 6月11日
相关VIP内容
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
相关论文
Arxiv
69+阅读 · 2022年6月13日
Arxiv
11+阅读 · 2022年3月16日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
17+阅读 · 2021年3月29日
An Attentive Survey of Attention Models
Arxiv
44+阅读 · 2020年12月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员