SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment - 专知论文

会员服务 ·

0

系统 · 负载 · GPU · 语言模型 · Ethernet ·

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

翻译：SAKURAONE：基于开放性以太网的人工智能高性能计算系统及其在单租户大语言模型开发环境中的工作负载动态观测

Fumikazu Konishi,Yuuki Tsubouchi,Hirofumi Tsuruta

from arxiv, Accepted at MLSys 2026

SAKURAONE is a managed high performance computing (HPC) cluster developed and operated by the SAKURA Internet Research Center. It builds on the KOKARYOKU PHY bare metal GPU platform and is optimized for advanced workloads, including large language model (LLM) training. In ISC 2025 TOP500, SAKURAONE is ranked 49th by HPL and is the only top 100 system that uses a fully open networking stack - 800 GbE with SONiC - demonstrating the scalability of vendor-neutral technology. Measured performance is 33.95 PFLOP/s (HPL Rmax), 396.295 TFLOP/s (HPCG), and 339.86 PFLOP/s on HPL-MxP with FP8. The system consists of 100 nodes, each with eight NVIDIA H100 GPUs and a 2 PB all-flash Lustre file system, interconnected via a rail-optimized 800 GbE leaf-spine fabric with RoCEv2. Through exclusive use by a single research project, we observed the characteristics of development-related jobs. Consistent with previous HPC studies, small-scale jobs dominated in number, while a few large-scale jobs accounted for most GPU resource time. As the project progressed, resource use shifted from large-scale to mid-scale jobs, reflecting a transition from initial large-scale training to iterative refinement. These observations illustrate the real-world utilization dynamics of GPU clusters under unified project workloads.

翻译：SAKURAONE是由樱互联网研究中心开发与运维的受管高性能计算（HPC）集群。该系统基于KOKARYOKU PHY裸金属GPU平台构建，专为大语言模型（LLM）训练等高级工作负载优化。在ISC 2025 TOP500榜单中，SAKURAONE凭借HPL性能位列第49名，是前100名中唯一采用全开放网络协议栈（基于SONiC的800GbE）的系统，充分彰显了供应商无关技术的可扩展性。其实测性能指标为：HPL Rmax达33.95 PFLOP/s，HPCG达396.295 TFLOP/s，HPL-MxP（FP8格式）达339.86 PFLOP/s。系统包含100个节点，每节点配备八块NVIDIA H100 GPU，搭载2PB全闪存Lustre文件系统，并通过基于RoCEv2的轨道优化800GbE脊叶架构实现互联。通过单一研究项目的专有使用，我们观测到开发相关作业的典型特征。与既往HPC研究一致，小规模作业在数量上占优，而少数大规模作业则消耗了大部分GPU资源时间。随着项目推进，资源使用重心从大规模作业转向中等规模作业，反映了从初期大规模训练向迭代优化阶段的转变。这些观测结果揭示了统一项目工作负载下GPU集群的真实使用动态。

0

相关内容

AlphaMosaic：人工智能赋能的作战管理系统

AlphaMosaic：人工智能赋能的作战管理系统

专知会员服务

46+阅读 · 2025年8月19日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

31+阅读 · 2025年8月7日

Sora的诞生对智能驾驶行业的影响

Sora的诞生对智能驾驶行业的影响

专知会员服务

43+阅读 · 2024年3月3日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

《在开放世界的新奇场景中测试人工智能学习（TALONS）》美国国防部高级研究计划局（DARPA）2023最新 312页报告

《在开放世界的新奇场景中测试人工智能学习（TALONS）》美国国防部高级研究计划局（DARPA）2023最新 312页报告

专知会员服务

73+阅读 · 2023年11月28日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

22+阅读 · 2022年12月12日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

专知会员服务

15+阅读 · 2019年12月24日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SAR影像古遗址自动检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Arxiv

0+阅读 · 4月15日

SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

Arxiv

0+阅读 · 4月7日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels

Arxiv

0+阅读 · 4月6日

Deploy, Calibrate, Monitor, Heal -- No Human Required: An Autonomous AI SRE Agent for Elasticsearch

Arxiv

0+阅读 · 4月5日

KUKAloha: A General, Low-Cost, and Shared-Control based Teleoperation Framework for Construction Robot Arm

Arxiv

0+阅读 · 3月20日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Fanar 2.0: Arabic Generative AI Stack

Arxiv

0+阅读 · 3月17日

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

9+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

20+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

AlphaMosaic：人工智能赋能的作战管理系统

AlphaMosaic：人工智能赋能的作战管理系统

专知会员服务

46+阅读 · 2025年8月19日

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

专知会员服务

31+阅读 · 2025年8月7日

Sora的诞生对智能驾驶行业的影响

Sora的诞生对智能驾驶行业的影响

专知会员服务

43+阅读 · 2024年3月3日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

《在开放世界的新奇场景中测试人工智能学习（TALONS）》美国国防部高级研究计划局（DARPA）2023最新 312页报告

《在开放世界的新奇场景中测试人工智能学习（TALONS）》美国国防部高级研究计划局（DARPA）2023最新 312页报告

专知会员服务

73+阅读 · 2023年11月28日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

22+阅读 · 2022年12月12日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

专知会员服务

15+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

19+阅读 · 2019年7月5日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

相关论文

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Arxiv

0+阅读 · 4月15日

SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

Arxiv

0+阅读 · 4月7日

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Arxiv

0+阅读 · 4月7日

AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels

Arxiv

0+阅读 · 4月6日

Deploy, Calibrate, Monitor, Heal -- No Human Required: An Autonomous AI SRE Agent for Elasticsearch

Arxiv

0+阅读 · 4月5日

KUKAloha: A General, Low-Cost, and Shared-Control based Teleoperation Framework for Construction Robot Arm

Arxiv

0+阅读 · 3月20日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Fanar 2.0: Arabic Generative AI Stack

Arxiv

0+阅读 · 3月17日

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Arxiv

0+阅读 · 2月25日

相关基金

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

SAR影像古遗址自动检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于缺失数据分析和信息几何理论的SAR图像自动目标识别研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员