AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism - 专知论文

会员服务 ·

0

并行 · 数据并行 · 优化方法 · 异步更新 · 稀疏 ·

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

翻译：AsyncMesh：面向数据并行与流水线并行的全异步优化方法

Thalaiyasingam Ajanthan,Sameera Ramasinghe,Gil Avraham,Hadi Mohaghegh Dolatabadi,Chamin P Hewa Koneputugodage,Violetta Shevchenko,Yan Zuo,Alexander Long

Data and pipeline parallelism are key strategies for scaling neural network training across distributed devices, but their high communication cost necessitates co-located computing clusters with fast interconnects, limiting their scalability. We address this communication bottleneck by introducing asynchronous updates across both parallelism axes, relaxing the co-location requirement at the expense of introducing staleness between pipeline stages and data parallel replicas. To mitigate staleness, for pipeline parallelism, we adopt a weight look-ahead approach, and for data parallelism, we introduce an asynchronous sparse averaging method equipped with an exponential moving average based correction mechanism. We provide convergence guarantees for both sparse averaging and asynchronous updates. Experiments on large-scale language models (up to \em 1B parameters) demonstrate that our approach matches the performance of the fully synchronous baseline, while significantly reducing communication overhead.

翻译：数据并行与流水线并行是神经网络在分布式设备上进行扩展训练的关键策略，但其高昂的通信开销要求计算集群具备快速互连且需紧密部署，从而限制了可扩展性。我们通过在两个并行维度上引入异步更新来解决这一通信瓶颈，放宽了紧密部署的要求，代价是引入了流水线阶段间与数据并行副本间的状态滞后。为缓解滞后影响，在流水线并行中我们采用权重前瞻方法，在数据并行中则引入配备基于指数移动平均校正机制的异步稀疏平均方法。我们为稀疏平均与异步更新提供了收敛性保证。在大规模语言模型（参数规模达 \em 1B）上的实验表明，我们的方法在显著降低通信开销的同时，达到了全同步基线的性能水平。

0

相关内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

专知会员服务

61+阅读 · 2022年4月2日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

专知会员服务

23+阅读 · 2021年11月9日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

专知会员服务

39+阅读 · 2020年12月8日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

87+阅读 · 2020年5月23日

【斯坦福】机器学习优化简明导论， Introduction to Optimization for Machine Learning

【斯坦福】机器学习优化简明导论， Introduction to Optimization for Machine Learning

专知会员服务

93+阅读 · 2020年5月6日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

面向异构多核并行机的辐射流体力学并行预条件技术

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于优化Schwarz算法的非线性预条件问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光与无线融合接入网资源协同优化理论与实现机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于机会路由的数据分流及共享最优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂RFID数据采集任务的分布式协同方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

Unifying Optimization and Dynamics to Parallelize Sequential Computation: A Guide to Parallel Newton Methods for Breaking Sequential Bottlenecks

Arxiv

0+阅读 · 3月17日

Parallel Split Learning with Global Sampling

Arxiv

0+阅读 · 3月5日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Arxiv

0+阅读 · 2月20日

Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity

Arxiv

0+阅读 · 2月19日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

Arxiv

0+阅读 · 2月7日

TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism

Arxiv

0+阅读 · 2月5日

Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

GNN+IoT=？弗吉尼亚大学最新《图神经网络与物联网》综述论文，45页pdf全面阐述GNN在IoT中的进展，包括算法与代码数据

专知会员服务

61+阅读 · 2022年4月2日

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

【CVPR 2022】AME：超参数优化中的注意力和记忆增强，AME: Attention and Memory Enhancement in Hyper-Parameter Optimization

专知会员服务

11+阅读 · 2022年3月19日

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

非深度学习！普林斯顿、英特尔提出ParNet，速度和准确性显著优于ResNet

专知会员服务

23+阅读 · 2021年11月9日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

【2020新书】数据并行C++，掌握使用c++和SYCL编写异构系统的dpc++，565页pdf

专知会员服务

39+阅读 · 2020年12月8日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

87+阅读 · 2020年5月23日

【斯坦福】机器学习优化简明导论， Introduction to Optimization for Machine Learning

【斯坦福】机器学习优化简明导论， Introduction to Optimization for Machine Learning

专知会员服务

93+阅读 · 2020年5月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

相关论文

Unifying Optimization and Dynamics to Parallelize Sequential Computation: A Guide to Parallel Newton Methods for Breaking Sequential Bottlenecks

Arxiv

0+阅读 · 3月17日

Parallel Split Learning with Global Sampling

Arxiv

0+阅读 · 3月5日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

Arxiv

0+阅读 · 2月20日

Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity

Arxiv

0+阅读 · 2月19日

DeepCompile: A Compiler-Driven Approach to Optimizing Distributed Deep Learning Training

Arxiv

0+阅读 · 2月19日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

Parallel Track Transformers: Enabling Fast GPU Inference with Reduced Synchronization

Arxiv

0+阅读 · 2月7日

TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism

Arxiv

0+阅读 · 2月5日

Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation

Arxiv

0+阅读 · 2月3日

相关基金

面向异构多核并行机的辐射流体力学并行预条件技术

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于优化Schwarz算法的非线性预条件问题

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

光与无线融合接入网资源协同优化理论与实现机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于机会路由的数据分流及共享最优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂RFID数据采集任务的分布式协同方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

弹性QoS的快速多目标优化软件定义卫星网络流控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员