点积自注意力(DPSA)是变换器的一个基本组成部分。然而,将其扩展到长序列,如文档或高分辨率图像,由于softmax操作导致的二次时间和内存复杂度,变得代价昂贵。核方法被用来简化计算,通过近似softmax,但通常与softmax注意力相比会导致性能下降。我们提出SeTformer,一种新颖的变换器,其中DPSA完全被自优化传输(SeT)所取代,以实现更好的性能和计算效率。SeT基于两个基本的softmax属性:维持非负注意力矩阵和使用非线性加权机制来强调输入序列中重要的标记。通过引入用于最优传输的核成本函数,SeTformer有效地满足了这些属性。特别是,SeTformer在小型和基础型模型中在ImageNet-1K上实现了令人印象深刻的top-1准确率,分别为84.7%和86.2%。在对象检测中,SeTformer-base的性能超过了FocalNet对应模型+2.2 mAP,使用了38%更少的参数和29%更少的FLOPs。在语义分割中,我们的基础型模型超过了NAT +3.5 mIoU,参数减少了33%。SeTformer还在GLUE基准的语言建模中实现了最先进的结果。这些发现凸显了SeTformer在视觉和语言任务中的适用性。

成为VIP会员查看完整内容
21

相关内容

【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
专知会员服务
39+阅读 · 2021年8月20日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
【NeurIPS2020】点针图网络,Pointer Graph Networks
专知会员服务
40+阅读 · 2020年9月27日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
18+阅读 · 2020年8月23日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
VIP会员
相关VIP内容
【ICML2023】改善自监督Vision Transformers的视觉提示调优
专知会员服务
36+阅读 · 2023年6月12日
【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
【ICML2022】可达性约束强化学习
专知会员服务
23+阅读 · 2022年5月18日
专知会员服务
39+阅读 · 2021年8月20日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
26+阅读 · 2021年1月29日
【NeurIPS2020】点针图网络,Pointer Graph Networks
专知会员服务
40+阅读 · 2020年9月27日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
18+阅读 · 2020年8月23日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
相关论文
Arxiv
16+阅读 · 2023年6月6日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Deep Face Recognition: A Survey
Arxiv
18+阅读 · 2019年2月12日
微信扫码咨询专知VIP会员