Machine learning training places immense demands on cluster networks, motivating specialized architectures and co-design with parallelization strategies. Recent designs incorporating optical circuit switches (OCSes) are promising, offering improved cost, power efficiency, and long-term bandwidth scaling than packet switches. However, most existing approaches rely on costly high-radix OCSes and/or combine them with packet switches to achieve competitive performance at scale. Unfortunately, high-radix OCSes are both expensive and slow to reconfigure, limiting both scalability and performance. We propose Arrays of Cheap Optical Switches (ACOS), which bring application co-design directly to the structure of the reconfigurable fabric. Using low-radix OCSes as building blocks, ACOS supports the forms of reconfiguration needed in training clusters including topology selection, workload adaptation, and failure resilience. The cost of ACOS scales with supported topologies and adaptations rather than with port count, breaking past the scalability barriers of current specialized ML networks. We show through simulation that ACOS-based deployments match the performance of fully provisioned packet-switched networks when training state-of-the-art LLMs at scale, while delivering significant cost savings using existing off-the-shelf OCSes, with strong bandwidth scaling and higher cost savings in the future.


翻译:机器学习训练对集群网络提出了巨大需求,这推动了专用架构以及与并行化策略的协同设计。近期采用光路开关(OCS)的设计方案展现出良好前景,相较于分组交换机,其在成本、能效和长期带宽扩展性方面更具优势。然而,现有方案大多依赖昂贵的高基数OCS,并常需与分组交换机结合以实现大规模下的竞争性性能。遗憾的是,高基数OCS不仅成本高昂且重配置速度缓慢,限制了系统的可扩展性与性能。本文提出廉价光开关阵列(ACOS),将应用协同设计直接融入可重构交换结构。ACOS以低基数OCS为构建模块,支持训练集群所需的重配置形式,包括拓扑选择、工作负载适配和故障恢复能力。其成本随支持的拓扑和适配方案而非端口数量扩展,突破了当前专用机器学习网络的可扩展性瓶颈。仿真实验表明,在大规模训练最先进大语言模型时,基于ACOS的部署方案可达到全配置分组交换网络的性能水平,同时利用现有商用OCS实现显著的成本节约,并具备强大的带宽扩展潜力及未来更高的成本效益。

0
下载
关闭预览

相关内容

最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
比xgboost强大的LightGBM:调参指南(带贝叶斯优化代码)
数据挖掘入门与实战
23+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关VIP内容
最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员