Symphony: Taming Step Misalignments in the Network for Ring-based Collective Operations - 专知论文

会员服务 ·

0

对齐 · 操作 · 带宽 · 带宽利用 · AI ·

Symphony: Taming Step Misalignments in the Network for Ring-based Collective Operations

翻译：《Symphony：驯服环状集合操作网络中的步阶失对齐》

Yuze Jin,Xin Zhe Khooi,Ruyi Yao,Mun Choon Chan

Ring-based collective operations are widely used in distributed AI training due to their efficient bandwidth utilization. While ring communication excels at pipelining, its performance is heavily dependent on having synchronized step-wise progression. This presents a mismatch to the underlying network conditions in practice: collective operations are vulnerable to network jitter and congestion, leading to step misalignment and increased collective completion time. To that end, we propose Symphony, an in-network solution that detects pipeline step misalignment and mitigates its impact. Symphony introduces (1) a lightweight mechanism to track per-job pipeline progress and (2) a novel use of congestion signals to selectively throttle outpacing flows, allowing lagging flows to catch up without global coordination. Through simulations using Astra-Sim, we show that Symphony effectively mitigates step misalignments in ring-based collectives, resulting in up to 54% improvement in job/collective communication time. Finally, we prototype and validate Symphony on an Intel Tofino2 programmable switch to demonstrate its practicality.

翻译：环状集合操作因其高效的带宽利用率被广泛用于分布式AI训练。尽管环形通信在流水线处理方面表现优异，但其性能高度依赖于同步化的步阶推进。这在实际网络条件下存在不匹配问题：集合操作易受网络抖动和拥塞影响，导致步阶失对齐并增加集合完成时间。为此，我们提出Symphony——一种检测流水线步阶失对齐并缓解其影响的网络内解决方案。Symphony引入：(1) 一种轻量级机制来追踪每项任务的流水线进度；(2) 一种新颖的拥塞信号使用方法，选择性抑制超前流量，使滞后流量无需全局协调即可追赶。通过基于Astra-Sim的仿真，我们证明Symphony能有效缓解环状集合中的步阶失对齐，使任务/集合通信时间最多降低54%。最后，我们在Intel Tofino2可编程交换机上完成原型验证，证明了其实用性。

0

相关内容

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

专知会员服务

135+阅读 · 2022年4月3日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

专知会员服务

60+阅读 · 2019年11月25日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

系列教程GNN-algorithms之七：《图同构网络—GIN》

系列教程GNN-algorithms之七：《图同构网络—GIN》

专知

84+阅读 · 2020年8月9日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

一文读懂复杂网络（应用、模型和研究历史）

一文读懂复杂网络（应用、模型和研究历史）

AI100

16+阅读 · 2017年11月14日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Online combinatorial optimization with stochastic decision sets and adversarial losses

Arxiv

0+阅读 · 4月28日

Digital Twin-assisted belief-state reinforcement learning for latency-robust ISAC in 6G networks

Arxiv

0+阅读 · 4月28日

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning

Arxiv

0+阅读 · 4月7日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

From Skew to Symmetry: Node-Interconnect Multi-Path Balancing with Execution-time Planning for Modern GPU Clusters

Arxiv

0+阅读 · 3月31日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

Joint Task Orchestration and Resource Optimization for SC3 Closed Loop in 6G Networks

Arxiv

0+阅读 · 3月24日

On the Optimality of Coded Distributed Computing for Ring Networks

Arxiv

0+阅读 · 3月5日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

网络表示如何可解释？Syracuse大学最新WWW2022《可解释表示学习》教程，附97页ppt

专知会员服务

50+阅读 · 2022年4月30日

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

专知会员服务

135+阅读 · 2022年4月3日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

专知会员服务

60+阅读 · 2019年11月25日

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

【CIKM2019 Tutorial】Recent Developments of Deep Heterogeneous Information Network Analysis（深度异构信息网络分析的最新进展），附157页PDF免费下载

专知会员服务

29+阅读 · 2019年11月3日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

系列教程GNN-algorithms之七：《图同构网络—GIN》

系列教程GNN-algorithms之七：《图同构网络—GIN》

专知

84+阅读 · 2020年8月9日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

一文读懂复杂网络（应用、模型和研究历史）

一文读懂复杂网络（应用、模型和研究历史）

AI100

16+阅读 · 2017年11月14日

相关论文

Online combinatorial optimization with stochastic decision sets and adversarial losses

Arxiv

0+阅读 · 4月28日

Digital Twin-assisted belief-state reinforcement learning for latency-robust ISAC in 6G networks

Arxiv

0+阅读 · 4月28日

LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

Arxiv

0+阅读 · 4月16日

HiPolicy: Hierarchical Multi-Frequency Action Chunking for Policy Learning

Arxiv

0+阅读 · 4月7日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 4月3日

From Skew to Symmetry: Node-Interconnect Multi-Path Balancing with Execution-time Planning for Modern GPU Clusters

Arxiv

0+阅读 · 3月31日

Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Compute-Communication Overlap

Arxiv

0+阅读 · 3月27日

Joint Task Orchestration and Resource Optimization for SC3 Closed Loop in 6G Networks

Arxiv

0+阅读 · 3月24日

On the Optimality of Coded Distributed Computing for Ring Networks

Arxiv

0+阅读 · 3月5日

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Arxiv

0+阅读 · 3月3日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于零相关序列的精确同步方法及其在航空集群交感网络中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景中基于分数阶微积分的局部形状匹配方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员