SAKURAONE is a managed high performance computing (HPC) cluster developed and operated by the SAKURA Internet Research Center. It builds on the KOKARYOKU PHY bare metal GPU platform and is optimized for advanced workloads, including large language model (LLM) training. In ISC 2025 TOP500, SAKURAONE is ranked 49th by HPL and is the only top 100 system that uses a fully open networking stack - 800 GbE with SONiC - demonstrating the scalability of vendor-neutral technology. Measured performance is 33.95 PFLOP/s (HPL Rmax), 396.295 TFLOP/s (HPCG), and 339.86 PFLOP/s on HPL-MxP with FP8. The system consists of 100 nodes, each with eight NVIDIA H100 GPUs and a 2 PB all-flash Lustre file system, interconnected via a rail-optimized 800 GbE leaf-spine fabric with RoCEv2. Through exclusive use by a single research project, we observed the characteristics of development-related jobs. Consistent with previous HPC studies, small-scale jobs dominated in number, while a few large-scale jobs accounted for most GPU resource time. As the project progressed, resource use shifted from large-scale to mid-scale jobs, reflecting a transition from initial large-scale training to iterative refinement. These observations illustrate the real-world utilization dynamics of GPU clusters under unified project workloads.


翻译:SAKURAONE是由SAKURA互联网研究中心开发并运营的托管式高性能计算集群。该系统基于KOKARYOKU PHY裸金属GPU平台构建,针对包括大语言模型训练在内的先进工作负载进行了优化。在ISC 2025 TOP500榜单中,SAKURAONE凭借HPL性能排名第49位,并且是前100名系统中唯一采用完全开放网络协议栈——基于SONiC的800GbE技术的系统,充分证明了供应商中立技术的可扩展性。实测性能指标为:HPL Rmax 33.95 PFLOP/s、HPCG 396.295 TFLOP/s、HPL-MxP(FP8)339.86 PFLOP/s。系统由100个节点组成,每个节点配备八块NVIDIA H100 GPU,并搭载2 PB全闪存Lustre文件系统,通过基于RoCEv2的轨道优化型800GbE叶脊网络架构实现互联。通过单一研究项目的独占使用,我们观测到开发相关作业的特征。与先前HPC研究一致,小规模作业在数量上占主导地位,而少数大规模作业消耗了绝大部分GPU资源时间。随着项目推进,资源使用从大规模作业转向中等规模作业,反映了从初始大规模训练到迭代优化的过渡过程。这些观测结果揭示了统一项目工作负载下GPU集群的实际利用动态。

0
下载
关闭预览

相关内容

AlphaMosaic:人工智能赋能的作战管理系统
专知会员服务
41+阅读 · 2025年8月19日
Sora的诞生对智能驾驶行业的影响
专知会员服务
43+阅读 · 2024年3月3日
Sora技术详解及影响分析!
专知会员服务
70+阅读 · 2024年2月23日
OpenAI发布文生视频模型Sora,系统报告
专知会员服务
81+阅读 · 2024年2月19日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
83+阅读 · 2022年8月31日
分布式智能计算系统前沿
中国计算机学会
19+阅读 · 2019年10月8日
Github项目推荐 | DeepHash - 深度学习哈希开源库
AI研习社
27+阅读 · 2019年4月30日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
1+阅读 · 3月9日
VIP会员
最新内容
从看见到认知世界:视觉世界模型综述
专知会员服务
7+阅读 · 5月17日
《高超声速打击武器引发的战略影响》116页
专知会员服务
8+阅读 · 5月17日
《美军不对称战略选择》28页slides
专知会员服务
9+阅读 · 5月17日
《审视 Palantir 监控平台》
专知会员服务
20+阅读 · 5月17日
PALANTIR GOTHAM平台:人工智能赋能作战
专知会员服务
17+阅读 · 5月17日
集成式人工智能:Palantir与认知维度
专知会员服务
11+阅读 · 5月17日
AI原生数据库发展趋势白皮书
专知会员服务
13+阅读 · 5月16日
相关VIP内容
AlphaMosaic:人工智能赋能的作战管理系统
专知会员服务
41+阅读 · 2025年8月19日
Sora的诞生对智能驾驶行业的影响
专知会员服务
43+阅读 · 2024年3月3日
Sora技术详解及影响分析!
专知会员服务
70+阅读 · 2024年2月23日
OpenAI发布文生视频模型Sora,系统报告
专知会员服务
81+阅读 · 2024年2月19日
未来网络白皮书——SmartNIC/DPU技术白皮书
专知会员服务
83+阅读 · 2022年8月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员