Machine learning training places immense demands on cluster networks, motivating specialized architectures and co-design with parallelization strategies. Recent designs incorporating optical circuit switches (OCSes) are promising, offering improved cost, power efficiency, and long-term bandwidth scaling than packet switches. However, most existing approaches rely on costly high-radix OCSes and/or combine them with packet switches to achieve competitive performance at scale. Unfortunately, high-radix OCSes are both expensive and slow to reconfigure, limiting both scalability and performance. We propose Arrays of Cheap Optical Switches (ACOS), which bring application co-design directly to the structure of the reconfigurable fabric. Using low-radix OCSes as building blocks, ACOS supports the forms of reconfiguration needed in training clusters including topology selection, workload adaptation, and failure resilience. The cost of ACOS scales with supported topologies and adaptations rather than with port count, breaking past the scalability barriers of current specialized ML networks. We show through simulation that ACOS-based deployments match the performance of fully provisioned packet-switched networks when training state-of-the-art LLMs at scale, while delivering significant cost savings using existing off-the-shelf OCSes, with strong bandwidth scaling and higher cost savings in the future.


翻译:机器学习训练对集群网络提出了巨大需求,这推动了专用架构以及与并行化策略的协同设计。近期采用光路开关(OCS)的设计方案展现出良好前景,相较于分组交换机,其在成本、能效和长期带宽扩展性方面更具优势。然而,现有方案大多依赖昂贵的高基数OCS,并常需与分组交换机结合以实现大规模下的竞争性性能。遗憾的是,高基数OCS不仅成本高昂且重配置速度缓慢,限制了系统的可扩展性与性能。本文提出廉价光开关阵列(ACOS),将应用协同设计直接融入可重构交换结构。ACOS以低基数OCS为构建模块,支持训练集群所需的重配置形式,包括拓扑选择、工作负载适配和故障恢复能力。其成本随支持的拓扑和适配方案而非端口数量扩展,突破了当前专用机器学习网络的可扩展性瓶颈。仿真实验表明,在大规模训练最先进大语言模型时,基于ACOS的部署方案可达到全配置分组交换网络的性能水平,同时利用现有商用OCS实现显著的成本节约,并具备强大的带宽扩展潜力及未来更高的成本效益。

0
下载
关闭预览

相关内容

最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
比xgboost强大的LightGBM:调参指南(带贝叶斯优化代码)
数据挖掘入门与实战
23+阅读 · 2018年4月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
“Maven计划”的发展演变之“Maven智能系统”应用
《无人机革命:来自俄乌战场的启示》(报告)
专知会员服务
4+阅读 · 今天6:48
《实现联合作战能力所需的技术》58页报告
专知会员服务
2+阅读 · 今天6:30
以色列运用人工智能优化空袭警报系统
专知会员服务
2+阅读 · 今天6:20
以色列在多条战线部署AI智能体
专知会员服务
3+阅读 · 今天6:12
2025年大语言模型进展报告
专知会员服务
16+阅读 · 4月25日
多智能体协作机制
专知会员服务
13+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
相关VIP内容
最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员