Exploiting Multicast for Accelerating Collective Communication - 专知论文

会员服务 ·

0

多播 · 传输 · 冗余 · 并行 · 并行化 ·

Exploiting Multicast for Accelerating Collective Communication

翻译：利用多播加速集合通信

Chao Xu,Xu Zhang,Zihang Luo,Yuyan Wu,Guoxin Qian,Yufeng Yao,Chihyung Wang,Jingbin Zhou

Reducing collective communication latency is a critical goal for large model training and inference in both academia and industry. Many-to-many communications, such as AllGather and AlltoAll (dispatch), are core components of modern parallelization strategies. State-of-the-art implementations of these communications rely on unicast-based writes and transmit duplicate copies of the same data across physical links for multiple receivers. This redundant transmission congests network bottlenecks and degrades end-to-end latency. We present MultiWrite, a novel many-to-many transmission semantic that eliminates redundant packets to directly reduce operator latency. MultiWrite adopts multicast principles while addressing critical limitations of traditional multicast for AI workloads. These limitations include heavy management plane overhead and ecosystem compatibility issues. We implement MultiWrite on Ascend NPUs. Long-term stress tests demonstrate that our MultiWrite-based operators achieve up to 33% latency reduction on commercially deployed devices.

翻译：减少集合通信延迟是学术界和工业界在大规模模型训练与推理中的关键目标。诸如AllGather和AllToAll（分发）等多对多通信是现代并行化策略的核心组件。这些通信的最新实现依赖于基于单播的写入机制，并在物理链路上为多个接收方传输相同数据的重复副本。这种冗余传输会堵塞网络瓶颈并降低端到端延迟。我们提出MultiWrite——一种新型多对多传输语义，通过消除冗余数据包直接降低算子延迟。MultiWrite借鉴多播原理，同时解决了传统多播在AI工作负载中的关键缺陷，包括沉重的管理平面开销和生态系统兼容性问题。我们在昇腾NPU上实现了MultiWrite。长期压力测试表明，基于MultiWrite的算子在商用部署设备上实现了最高33%的延迟降低。

0

相关内容

综述：生成式通信，面向6G的可控生成新范式

综述：生成式通信，面向6G的可控生成新范式

专知会员服务

11+阅读 · 7月13日

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

17+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

26+阅读 · 2025年11月17日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

《多智能体合作强化学习中的通信》139页

《多智能体合作强化学习中的通信》139页

专知会员服务

47+阅读 · 2025年2月17日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

《多跳战术网络中 5G 及其他侧链路通信的作用》

《多跳战术网络中 5G 及其他侧链路通信的作用》

专知会员服务

29+阅读 · 2024年6月6日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

专知会员服务

128+阅读 · 2022年11月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

广义多用户环境下多接收者加密方案的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合式多址通信网络理论与控制协议研究

国家自然科学基金

0+阅读 · 2014年12月31日

Resource-aware Computation-Communication Overlap for multi-GPU ML Workloads

Arxiv

0+阅读 · 6月8日

Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge

Arxiv

0+阅读 · 6月7日

Accurate identification of communication between multiple interacting neural populations

Arxiv

0+阅读 · 6月6日

Streaming Communication in Multi-Agent Reasoning

Arxiv

0+阅读 · 6月3日

From Talking Words to Sharing Thoughts: Scalable Multi-LLM Aggregation via Structured Message Passing

Arxiv

0+阅读 · 5月29日

Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月26日

Less is More Revisited: Association with Global Protocols and Multiparty Sessions

Arxiv

0+阅读 · 5月22日

Toward Goal-Oriented Communication in Multi-Agent Systems: An overview

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

EPIC: Abstraction and Polymorphism of In-Network Collectives on Ethernet

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

综述：生成式通信，面向6G的可控生成新范式

综述：生成式通信，面向6G的可控生成新范式

专知会员服务

11+阅读 · 7月13日

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

多智能体通信：多智能体强化学习到涌现语言和大语言模型的综述

专知会员服务

17+阅读 · 2月13日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

26+阅读 · 2025年11月17日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

《多智能体合作强化学习中的通信》139页

《多智能体合作强化学习中的通信》139页

专知会员服务

47+阅读 · 2025年2月17日

《多模态对齐与融合》综述

《多模态对齐与融合》综述

专知会员服务

99+阅读 · 2024年11月27日

《多跳战术网络中 5G 及其他侧链路通信的作用》

《多跳战术网络中 5G 及其他侧链路通信的作用》

专知会员服务

29+阅读 · 2024年6月6日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》【译文】美国陆军、IBM、卡迪夫大学等论文

专知会员服务

128+阅读 · 2022年11月1日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

一文搞懂反向传播

一文搞懂反向传播

机器学习与推荐算法

18+阅读 · 2020年3月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

相关论文

Resource-aware Computation-Communication Overlap for multi-GPU ML Workloads

Arxiv

0+阅读 · 6月8日

Multi-SPIN: Multi-Access Speculative Inference for Cooperative Token Generation at the Edge

Arxiv

0+阅读 · 6月7日

Accurate identification of communication between multiple interacting neural populations

Arxiv

0+阅读 · 6月6日

Streaming Communication in Multi-Agent Reasoning

Arxiv

0+阅读 · 6月3日

From Talking Words to Sharing Thoughts: Scalable Multi-LLM Aggregation via Structured Message Passing

Arxiv

0+阅读 · 5月29日

Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月26日

Less is More Revisited: Association with Global Protocols and Multiparty Sessions

Arxiv

0+阅读 · 5月22日

Toward Goal-Oriented Communication in Multi-Agent Systems: An overview

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

EPIC: Abstraction and Polymorphism of In-Network Collectives on Ethernet

Arxiv

0+阅读 · 5月18日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

广义多用户环境下多接收者加密方案的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

高谱效全/半双工混合通信网络连续中继协议设计与性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

融合式多址通信网络理论与控制协议研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员