Transformers have emerged as a powerful tool for a broad range of natural language processing tasks. A key component that drives the impressive performance of Transformers is the self-attention mechanism that encodes the influence or dependence of other tokens on each specific token. While beneficial, the quadratic complexity of self-attention on the input sequence length has limited its application to longer sequences -- a topic being actively studied in the community. To address this limitation, we propose Nystr\"omformer -- a model that exhibits favorable scalability as a function of sequence length. Our idea is based on adapting the Nystr\"om method to approximate standard self-attention with $O(n)$ complexity. The scalability of Nystr\"omformer enables application to longer sequences with thousands of tokens. We perform evaluations on multiple downstream tasks on the GLUE benchmark and IMDB reviews with standard sequence length, and find that our Nystr\"omformer performs comparably, or in a few cases, even slightly better, than standard Transformer. Our code is at https://github.com/mlpen/Nystromformer.


翻译:变换器已经成为一种强大的工具, 用于各种自然语言处理任务。 驱动变换器令人印象深刻的性能的一个关键部分是将其他符号在每种特定符号上的影响或依赖性编码的自我注意机制。 输入序列长度上的自我注意的二次复杂性虽然有益,但将其应用限制在更长的顺序上 -- -- 一个正在社区积极研究的专题。 为了解决这一限制, 我们提议 Nystr\\"omfront -- -- 一种模型, 显示在序列长度上具有有利的可缩放性。 我们的想法是以将 Nystr\"om 方法调整为接近标准的自留( $)( n) 复杂性。 Nystr\\\ “ omcalable 允许应用以数千个符号更长的序列。 我们对GLUE 基准的多个下游任务和IMDB 标准序列长度的审查进行评估, 并发现我们的 Nystr\\ omexer 进行可比较性的工作, 或者在少数情况下, 甚至略高于标准变换器。 我们的代码是在 https:// githhubub.com/ mlpen/ Nystrom/ Nystrorstorstormormormormorm 。

0
下载
关闭预览

相关内容

数字化健康白皮书,17页pdf
专知会员服务
110+阅读 · 2021年1月6日
专知会员服务
110+阅读 · 2020年3月12日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2019年9月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
5+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关VIP内容
相关资讯
已删除
将门创投
4+阅读 · 2019年9月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员