SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment - 专知论文

会员服务 ·

0

系统 · 负载 · GPU · 语言模型 · Ethernet ·

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

翻译：SAKURAONE：基于开放以太网的AI高性能计算系统及其在单租户大语言模型开发环境中的工作负载动态观测

Fumikazu Konishi,Yuuki Tsubouchi,Hirofumi Tsuruta

SAKURAONE is a managed high performance computing (HPC) cluster developed and operated by the SAKURA Internet Research Center. It builds on the KOKARYOKU PHY bare metal GPU platform and is optimized for advanced workloads, including large language model (LLM) training. In ISC 2025 TOP500, SAKURAONE is ranked 49th by HPL and is the only top 100 system that uses a fully open networking stack - 800 GbE with SONiC - demonstrating the scalability of vendor-neutral technology. Measured performance is 33.95 PFLOP/s (HPL Rmax), 396.295 TFLOP/s (HPCG), and 339.86 PFLOP/s on HPL-MxP with FP8. The system consists of 100 nodes, each with eight NVIDIA H100 GPUs and a 2 PB all-flash Lustre file system, interconnected via a rail-optimized 800 GbE leaf-spine fabric with RoCEv2. Through exclusive use by a single research project, we observed the characteristics of development-related jobs. Consistent with previous HPC studies, small-scale jobs dominated in number, while a few large-scale jobs accounted for most GPU resource time. As the project progressed, resource use shifted from large-scale to mid-scale jobs, reflecting a transition from initial large-scale training to iterative refinement. These observations illustrate the real-world utilization dynamics of GPU clusters under unified project workloads.

翻译：SAKURAONE是由SAKURA互联网研究中心开发并运营的托管式高性能计算集群。该系统基于KOKARYOKU PHY裸金属GPU平台构建，针对包括大语言模型训练在内的先进工作负载进行了优化。在ISC 2025 TOP500榜单中，SAKURAONE凭借HPL性能排名第49位，并且是前100名系统中唯一采用完全开放网络协议栈——基于SONiC的800GbE技术的系统，充分证明了供应商中立技术的可扩展性。实测性能指标为：HPL Rmax 33.95 PFLOP/s、HPCG 396.295 TFLOP/s、HPL-MxP（FP8）339.86 PFLOP/s。系统由100个节点组成，每个节点配备八块NVIDIA H100 GPU，并搭载2 PB全闪存Lustre文件系统，通过基于RoCEv2的轨道优化型800GbE叶脊网络架构实现互联。通过单一研究项目的独占使用，我们观测到开发相关作业的特征。与先前HPC研究一致，小规模作业在数量上占主导地位，而少数大规模作业消耗了绝大部分GPU资源时间。随着项目推进，资源使用从大规模作业转向中等规模作业，反映了从初始大规模训练到迭代优化的过渡过程。这些观测结果揭示了统一项目工作负载下GPU集群的实际利用动态。

0

相关内容

AlphaMosaic：人工智能赋能的作战管理系统

AlphaMosaic：人工智能赋能的作战管理系统

专知会员服务

46+阅读 · 2025年8月19日

Sora的诞生对智能驾驶行业的影响

Sora的诞生对智能驾驶行业的影响

专知会员服务

43+阅读 · 2024年3月3日

从Sora看AI应用发展探索新质生产力有望推动TMT再下一城，34页ppt

从Sora看AI应用发展探索新质生产力有望推动TMT再下一城，34页ppt

专知会员服务

74+阅读 · 2024年3月2日

重磅！Lehigh微软最新《Sora:综述大视觉模型的背景、技术、限制和机遇》报告

重磅！Lehigh微软最新《Sora:综述大视觉模型的背景、技术、限制和机遇》报告

专知会员服务

61+阅读 · 2024年3月1日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

22+阅读 · 2022年12月12日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

SAR影像古遗址自动检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心以太网拥塞控制

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Arxiv

0+阅读 · 4月16日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels

Arxiv

0+阅读 · 4月6日

Deploy, Calibrate, Monitor, Heal -- No Human Required: An Autonomous AI SRE Agent for Elasticsearch

Arxiv

0+阅读 · 4月5日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Fanar 2.0: Arabic Generative AI Stack

Arxiv

0+阅读 · 3月17日

IronEngine: Towards General AI Assistant

Arxiv

1+阅读 · 3月9日

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

Arxiv

0+阅读 · 3月5日

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

10+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

11+阅读 · 7月19日

相关VIP内容

AlphaMosaic：人工智能赋能的作战管理系统

AlphaMosaic：人工智能赋能的作战管理系统

专知会员服务

46+阅读 · 2025年8月19日

Sora的诞生对智能驾驶行业的影响

Sora的诞生对智能驾驶行业的影响

专知会员服务

43+阅读 · 2024年3月3日

从Sora看AI应用发展探索新质生产力有望推动TMT再下一城，34页ppt

从Sora看AI应用发展探索新质生产力有望推动TMT再下一城，34页ppt

专知会员服务

74+阅读 · 2024年3月2日

重磅！Lehigh微软最新《Sora:综述大视觉模型的背景、技术、限制和机遇》报告

重磅！Lehigh微软最新《Sora:综述大视觉模型的背景、技术、限制和机遇》报告

专知会员服务

61+阅读 · 2024年3月1日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

Text-to-Video的GPT-3时刻已来：OpenAI的SORA模型引领新技术突破

专知会员服务

53+阅读 · 2024年2月23日

OpenAI发布文生视频模型Sora，系统报告

OpenAI发布文生视频模型Sora，系统报告

专知会员服务

81+阅读 · 2024年2月19日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

22+阅读 · 2022年12月12日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

分布式智能计算系统前沿

分布式智能计算系统前沿

中国计算机学会

19+阅读 · 2019年10月8日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

Github项目推荐 | DeepHash - 深度学习哈希开源库

Github项目推荐 | DeepHash - 深度学习哈希开源库

AI研习社

27+阅读 · 2019年4月30日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

大数据分析研究组开源Easy Machine Learning系统

大数据分析研究组开源Easy Machine Learning系统

中国科学院网络数据重点实验室

17+阅读 · 2017年6月13日

相关论文

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

Arxiv

0+阅读 · 4月16日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels

Arxiv

0+阅读 · 4月6日

Deploy, Calibrate, Monitor, Heal -- No Human Required: An Autonomous AI SRE Agent for Elasticsearch

Arxiv

0+阅读 · 4月5日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Fanar 2.0: Arabic Generative AI Stack

Arxiv

0+阅读 · 3月17日

IronEngine: Towards General AI Assistant

Arxiv

1+阅读 · 3月9日

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

Arxiv

0+阅读 · 3月5日

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Arxiv

0+阅读 · 2月25日

相关基金

云计算环境下属性基密码及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

SAR影像古遗址自动检测方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据中心以太网拥塞控制

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员