更大的 Transformer 模型在各种任务上总是表现更好,但扩展模型规模需要更高的成本。为了高效地扩展模型,广泛采用了专家混合(MoE)架构,该架构由一个门控网络和一系列专家组成,通过将输入数据路由到固定数量的专家而非全部专家,从而保持训练成本不变。在现有的大规模 MoE 训练系统中,专家会分布在不同的 GPU 上进行并行化,因此输入数据需要额外的全对全(all-to-all)通信来访问目标专家并执行相应的计算。然而,通过对常用 GPU 集群上三种主流 MoE 模型的训练过程进行评估,我们发现全对全通信的比例平均约为 45%,这显著阻碍了 MoE 模型训练的效率和可扩展性。在本文中,我们提出了一种使用局部敏感哈希(LSH)的通信高效的 MoE 训练框架——LSH-MoE。我们首先介绍了现有系统中扩展 MoE 训练所面临的问题,并强调利用令牌相似性来实现数据压缩的潜力。随后,我们引入了一种基于 LSH 的高效压缩技术,该技术使用交叉多面体哈希(cross-polytope hashing)进行快速聚类,并实施了基于残差的误差补偿方案,以减轻压缩的负面影响。为了验证我们方法的有效性,我们在语言模型(如 RoBERTa、GPT 和 T5)以及视觉模型(如 Swin)上进行了预训练和微调任务的实验。结果表明,我们的方法在不同任务上的速度提升达到了 1.28× - 2.2×,显著优于其他方法。

成为VIP会员查看完整内容
14

相关内容

【NeurIPS2024】协作!迈向用于路径问题的鲁棒神经方法
专知会员服务
15+阅读 · 2024年10月9日
【CVPR2024】视觉-语言模型的高效测试时间调整
专知会员服务
20+阅读 · 2024年3月30日
专知会员服务
23+阅读 · 2021年9月27日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
500+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
1+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员