Within Transformer, self-attention is the key module to learn powerful context-aware representations. However, self-attention suffers from quadratic memory requirements with respect to the sequence length, which limits us to process longer sequence on GPU. In this work, we propose sequence parallelism, a memory efficient parallelism method to help us break input sequence length limitation and train with longer sequence on GPUs. Compared with existing parallelism, our approach no longer requires a single device to hold the whole sequence. Specifically, we split the input sequence into multiple chunks and feed each chunk into its corresponding device (i.e. GPU). To compute the attention output, we communicate attention embeddings among GPUs. Inspired by ring all-reduce, we integrated ring-style communication with self-attention calculation and proposed Ring Self-Attention (RSA). Our implementation is fully based on PyTorch. Without extra compiler or library changes, our approach is compatible with data parallelism and pipeline parallelism. Experiments show that sequence parallelism performs well when scaling with batch size and sequence length. Compared with tensor parallelism, our approach achieved $13.7\times$ and $3.0\times$ maximum batch size and sequence length respectively when scaling up to 64 NVIDIA P100 GPUs. We plan to integrate our sequence parallelism with data, pipeline and tensor parallelism to further train large-scale models with 4D parallelism in our future work.


翻译:在变换器中,自我注意是学习强大的环境觉悟表达式的关键模块。然而,自我注意是序列长度的二次记忆要求,这限制了我们处理GPU上较长的顺序。在这项工作中,我们提出了序列平行,即记忆高效平行法,以帮助我们打破输入序列的长度限制,在GPU上用较长的顺序进行训练。与现有的平行法相比,我们的方法不再需要一个单一的装置来保持整个序列。具体地说,我们将输入序列分成多个块,并将每个块的平行体输入到相应的设备(即GPU)中。为了计算注意力输出,我们把注意力嵌入GPUs。在环形的激励下,我们用自控计算整合环形通信,并提议环形自控(RSA)。我们的实施完全基于PyTorrcht。没有额外的汇编或图书馆变化,我们的方法就与数据平行和管道平行模式相容。实验显示,随着分批量和顺序的长度的长度,序列在未来运行良好运行。 对比了64-NPIPximal的进度,在最大顺序上,我们实现了13.7和不断的顺序,我们的数据同步。

0
下载
关闭预览

相关内容

最新《动态网络嵌入》综述论文,25页pdf
专知会员服务
138+阅读 · 2020年6月17日
【陈天奇】TVM:端到端自动深度学习编译器,244页ppt
专知会员服务
87+阅读 · 2020年5月11日
Transformer文本分类代码
专知会员服务
118+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习在材料科学中的应用综述,21页pdf
专知会员服务
50+阅读 · 2019年9月24日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】基于TVM工具链的深度学习编译器 NNVM compiler发布
机器学习研究会
6+阅读 · 2017年10月7日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年7月16日
Arxiv
17+阅读 · 2021年3月29日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
4+阅读 · 2019年4月9日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
2+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
3+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
5+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
12+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】基于TVM工具链的深度学习编译器 NNVM compiler发布
机器学习研究会
6+阅读 · 2017年10月7日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员