PCCL: Process Group-Aware Scalable and Generic Collective Algorithm Synthesizer - 专知论文

会员服务 ·

0

Processing（编程语言） · MoDELS · Machine Learning · Learning · 缩放 ·

PCCL: Process Group-Aware Scalable and Generic Collective Algorithm Synthesizer

翻译：PCCL：进程组感知的可扩展通用集体算法合成器

William Won,Kartik Lakhotia,Madhu Kumar,Sudarshan Srinivasan,Tushar Krishna

from arxiv, Contains 11 main pages, 19 figures, three tables, three algorithms

Distributed machine learning has become increasingly important due to the massive scale of large-scale generative models. Both model parameters and data are distributed across many compute devices, which requires frequent collective communications to synchronize activations and parameter updates. Such collective communications have become a major bottleneck. While the performance of the collective algorithm depends on the physical network topology, the baseline collective algorithms in collective communication libraries are largely topology-agnostic. Collective algorithm synthesizers address this inefficiency by automatically generating topology-aware collective algorithms. However, prior works have largely overlooked that collective communication typically occurs only among a subset of devices, known as process groups. Additionally, most existing synthesizers are limited in the range of target collective patterns they can generate. We propose PCCL, a scalable and generic framework for synthesizing topology-aware collective algorithms. PCCL is process group-aware and capable of generating near-optimal collective algorithms even when only a subset of devices participates in collective operations. PCCL synthesizes arbitrary collective patterns, including 512-NPU All-to-All synthesis in 11.68 minutes.

翻译：分布式机器学习因大规模生成模型的庞大规模而日益重要。模型参数与数据分布在众多计算设备上，这需要频繁的集合通信来同步激活值与参数更新。此类集合通信已成为主要瓶颈。尽管集合算法的性能取决于物理网络拓扑，但集合通信库中的基准集合算法在很大程度上是拓扑无关的。集合算法合成器通过自动生成拓扑感知的集合算法来解决这一低效问题。然而，先前工作大多忽视了集合通信通常仅在称为进程组的设备子集内发生。此外，现有合成器在可生成的目标集合模式范围上存在局限。我们提出PCCL，一个用于合成拓扑感知集合算法的可扩展通用框架。PCCL具有进程组感知能力，即使只有部分设备参与集合操作，也能生成接近最优的集合算法。PCCL可合成任意集合模式，包括在11.68分钟内完成512-NPU的全对全合成。

0

相关内容

Processing（编程语言）

Processing（编程语言）

Processing 是一门开源编程语言和与之配套的集成开发环境（IDE）的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础，并运用于大量的新媒体和互动艺术作品中。

《改进机器学习管道中的人类集成》人机协作最新263页论文

《改进机器学习管道中的人类集成》人机协作最新263页论文

专知会员服务

33+阅读 · 2024年8月13日

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

集成学习研究现状及展望

集成学习研究现状及展望

专知会员服务

58+阅读 · 2023年7月20日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

专知会员服务

31+阅读 · 2022年11月5日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

最新《分布式机器学习》论文综述最新DML进展，33页pdf

最新《分布式机器学习》论文综述最新DML进展，33页pdf

专知

52+阅读 · 2019年12月26日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

SemPiper: Interactive Code Synthesis for Semantic Operators in Machine Learning Pipelines

Arxiv

0+阅读 · 6月12日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

ASTRA-sim 3.0: Next-Level Distributed Machine Learning Simulations via High-Fidelity GPU and Infrastructure Modeling

Arxiv

0+阅读 · 6月9日

Resource-aware Computation-Communication Overlap for multi-GPU ML Workloads

Arxiv

0+阅读 · 6月8日

A Reliable Self-Organized Distributed Complex Network for Communication of Smart Agents

Arxiv

0+阅读 · 6月3日

RADAR: Redundancy-Aware Diffusion for Multi-Agent Communication Structure Generation

Arxiv

0+阅读 · 6月1日

An Efficient, Reliable and Observable Collective Communication Library in Large-scale GPU Training Clusters

Arxiv

0+阅读 · 6月1日

BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

Arxiv

0+阅读 · 5月31日

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Arxiv

0+阅读 · 5月24日

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

Arxiv

0+阅读 · 5月22日

VIP会员

文章信息

相关主题

Processing（编程语言）

Machine Learning

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《改进机器学习管道中的人类集成》人机协作最新263页论文

《改进机器学习管道中的人类集成》人机协作最新263页论文

专知会员服务

33+阅读 · 2024年8月13日

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

集成学习研究现状及展望

集成学习研究现状及展望

专知会员服务

58+阅读 · 2023年7月20日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

【牛津大学博士论文】多代理学习，Multi-Agent Learning，181页pdf

专知会员服务

31+阅读 · 2022年11月5日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

【ICML2021】加速异构数据的分散式深度学习

专知会员服务

16+阅读 · 2021年7月7日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

最新《分布式机器学习》论文综述最新DML进展，33页pdf

最新《分布式机器学习》论文综述最新DML进展，33页pdf

专知

52+阅读 · 2019年12月26日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

SemPiper: Interactive Code Synthesis for Semantic Operators in Machine Learning Pipelines

Arxiv

0+阅读 · 6月12日

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

Arxiv

0+阅读 · 6月9日

ASTRA-sim 3.0: Next-Level Distributed Machine Learning Simulations via High-Fidelity GPU and Infrastructure Modeling

Arxiv

0+阅读 · 6月9日

Resource-aware Computation-Communication Overlap for multi-GPU ML Workloads

Arxiv

0+阅读 · 6月8日

A Reliable Self-Organized Distributed Complex Network for Communication of Smart Agents

Arxiv

0+阅读 · 6月3日

RADAR: Redundancy-Aware Diffusion for Multi-Agent Communication Structure Generation

Arxiv

0+阅读 · 6月1日

An Efficient, Reliable and Observable Collective Communication Library in Large-scale GPU Training Clusters

Arxiv

0+阅读 · 6月1日

BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

Arxiv

0+阅读 · 5月31日

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Arxiv

0+阅读 · 5月24日

Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems

Arxiv

0+阅读 · 5月22日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员