This paper proposes Omnidirectional Representations from Transformers (OmniNet). In OmniNet, instead of maintaining a strictly horizontal receptive field, each token is allowed to attend to all tokens in the entire network. This process can also be interpreted as a form of extreme or intensive attention mechanism that has the receptive field of the entire width and depth of the network. To this end, the omnidirectional attention is learned via a meta-learner, which is essentially another self-attention based model. In order to mitigate the computationally expensive costs of full receptive field attention, we leverage efficient self-attention models such as kernel-based (Choromanski et al.), low-rank attention (Wang et al.) and/or Big Bird (Zaheer et al.) as the meta-learner. Extensive experiments are conducted on autoregressive language modeling (LM1B, C4), Machine Translation, Long Range Arena (LRA), and Image Recognition. The experiments show that OmniNet achieves considerable improvements across these tasks, including achieving state-of-the-art performance on LM1B, WMT'14 En-De/En-Fr, and Long Range Arena. Moreover, using omnidirectional representation in Vision Transformers leads to significant improvements on image recognition tasks on both few-shot learning and fine-tuning setups.


翻译:本文建议由变异器(OmniNet) 提供全向性代表。 在OmniNet中, 我们不保留一个严格横向的可接受字段, 允许每个象征体在整个网络中关注所有象征物。 这个过程也可以被解释为一种极端或密集的注意机制, 它具有网络整个宽度和深度的可接受领域。 为此, 通过一个元 Learner 来学习全向性关注, 这基本上是另一个基于自我注意的模式。 为了减少完全接受的实地关注的计算成本, 我们利用高效的自我注意模式, 如以内核为基础的(Choromanski et al.), 低级别关注(Wang et al.) 和/或大Bird (Zaheer et al.) 。 为了这个目的, 对自动递增语言模型(LM1B、C4、机器翻译、长距离(LART) 和图像识别。 实验显示, OmniNet在这些任务中取得了相当大的改进, 包括利用LM-Rain-F imal-Developal Tal imal imal imal imal imal imal imal- imal-deal real deal development lavial sal supal supal 14, 在LMisal sal- laveal sal sal sal- imal- laveal- laviewal- sal- salmental sessional sessionalmental supal supal sal salmentalmentalmental sessmental sal salmentalmentalmental 上实现LM1和LM1和LM1和LM1和LM1和LM1和LM1和LM1和LM1和LM1和LM1 IMSIMSIMSIMSIMSIMSIMSIM1和SIM1Bal IM1和SIM1Bal IM1和SIM1和SDSDSIMSIM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IM1 IMSIMSIMSIMS

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
13+阅读 · 2020年4月12日
VIP会员
最新内容
以色列运用人工智能优化空袭警报系统
专知会员服务
0+阅读 · 8分钟前
以色列在多条战线部署AI智能体
专知会员服务
0+阅读 · 16分钟前
2025年大语言模型进展报告
专知会员服务
10+阅读 · 4月25日
多智能体协作机制
专知会员服务
10+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员