Ring-based collective operations are widely used in distributed AI training due to their efficient bandwidth utilization. While ring communication excels at pipelining, its performance is heavily dependent on having synchronized step-wise progression. This presents a mismatch to the underlying network conditions in practice: collective operations are vulnerable to network jitter and congestion, leading to step misalignment and increased collective completion time. To that end, we propose Symphony, an in-network solution that detects pipeline step misalignment and mitigates its impact. Symphony introduces (1) a lightweight mechanism to track per-job pipeline progress and (2) a novel use of congestion signals to selectively throttle outpacing flows, allowing lagging flows to catch up without global coordination. Through simulations using Astra-Sim, we show that Symphony effectively mitigates step misalignments in ring-based collectives, resulting in up to 54% improvement in job/collective communication time. Finally, we prototype and validate Symphony on an Intel Tofino2 programmable switch to demonstrate its practicality.


翻译:环状集合操作因其高效的带宽利用率被广泛用于分布式AI训练。尽管环形通信在流水线处理方面表现优异,但其性能高度依赖于同步化的步阶推进。这在实际网络条件下存在不匹配问题:集合操作易受网络抖动和拥塞影响,导致步阶失对齐并增加集合完成时间。为此,我们提出Symphony——一种检测流水线步阶失对齐并缓解其影响的网络内解决方案。Symphony引入:(1) 一种轻量级机制来追踪每项任务的流水线进度;(2) 一种新颖的拥塞信号使用方法,选择性抑制超前流量,使滞后流量无需全局协调即可追赶。通过基于Astra-Sim的仿真,我们证明Symphony能有效缓解环状集合中的步阶失对齐,使任务/集合通信时间最多降低54%。最后,我们在Intel Tofino2可编程交换机上完成原型验证,证明了其实用性。

0
下载
关闭预览

相关内容

【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
专知会员服务
48+阅读 · 2021年2月2日
专知会员服务
47+阅读 · 2020年11月13日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
专知会员服务
48+阅读 · 2021年2月2日
专知会员服务
47+阅读 · 2020年11月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员