veScale-FSDP: Flexible and High-Performance FSDP at Scale - 专知论文

会员服务 ·

0

P系统 · 系统 · 结构 · 数据并行 · 灵活性 ·

veScale-FSDP: Flexible and High-Performance FSDP at Scale

翻译：veScale-FSDP：大规模灵活且高性能的FSDP系统

Zezhou Wang,Youjie Li,Zhiqi Lin,Jiacheng Yang,Cong Xie,Guanyu Feng,Zheng Zhong,Ziyue Huang,Hongyu Zhu,Zhi Zhang,Yanghua Peng,Xin Liu

Fully Sharded Data Parallel (FSDP), also known as ZeRO, is widely used for training large-scale models, featuring its flexibility and minimal intrusion on model code. However, current FSDP systems struggle with structure-aware training methods (e.g., block-wise quantized training) and with non-element-wise optimizers (e.g., Shampoo and Muon) used in cutting-edge models (e.g., Gemini, Kimi K2). FSDP's fixed element- or row-wise sharding formats conflict with the block-structured computations. In addition, today's implementations fall short in communication and memory efficiency, limiting scaling to tens of thousands of GPUs. We introduce veScale-FSDP, a redesigned FSDP system that couples a flexible sharding format, RaggedShard, with a structure-aware planning algorithm to deliver both flexibility and performance at scale. veScale-FSDP natively supports efficient data placement required by FSDP, empowering block-wise quantization and non-element-wise optimizers. As a result, veScale-FSDP achieves 5~66% higher throughput and 16~30% lower memory usage than existing FSDP systems, while scaling efficiently to tens of thousands of GPUs.

翻译：完全分片数据并行（Fully Sharded Data Parallel，FSDP），亦称ZeRO，因其灵活性高且对模型代码侵入性小，被广泛用于大规模模型训练。然而，当前的FSDP系统难以支持结构感知的训练方法（例如，块级量化训练）以及前沿模型（如Gemini、Kimi K2）中使用的非逐元素优化器（如Shampoo和Muon）。FSDP固定的元素级或行级分片格式与块结构计算存在冲突。此外，现有实现在通信和内存效率方面存在不足，限制了其向数万GPU规模的扩展。本文介绍veScale-FSDP，一个重新设计的FSDP系统，它将灵活的分片格式RaggedShard与结构感知的规划算法相结合，从而在大规模下同时实现灵活性与高性能。veScale-FSDP原生支持FSDP所需的高效数据布局，从而赋能块级量化与非逐元素优化器。因此，与现有FSDP系统相比，veScale-FSDP实现了5%~66%的吞吐量提升和16%~30%的内存使用降低，并能高效扩展至数万GPU规模。

0

相关内容

P系统

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 2025年6月19日

高效训练大模型技术

高效训练大模型技术

专知会员服务

41+阅读 · 2024年11月13日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

68+阅读 · 2022年4月9日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

产业智能官

23+阅读 · 2019年7月3日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

Arxiv

0+阅读 · 5月4日

FloatSOM: GPU-Accelerated, Distributed, Topology-Flexible Self-Organizing Maps

Arxiv

0+阅读 · 4月29日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 4月27日

PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning

Arxiv

0+阅读 · 4月22日

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Arxiv

0+阅读 · 4月21日

FETTA: Flexible and Efficient Hardware Accelerator for Tensorized Neural Network Training

Arxiv

0+阅读 · 3月29日

DIP: Efficient Large Multimodal Model Training with Dynamic Interleaved Pipeline

Arxiv

0+阅读 · 3月23日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 3月14日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

[ICML2025]当模型知识遇见扩散模型：扩散辅助的无数据图像合成及域与类别对齐

专知会员服务

12+阅读 · 2025年6月19日

高效训练大模型技术

高效训练大模型技术

专知会员服务

41+阅读 · 2024年11月13日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

适配还是提示？微软最新《通用大模型是否超过专业领域微调大模型》论文，GPT-4多种策略提示超越医学大模型

专知会员服务

59+阅读 · 2023年12月3日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

ChatGPT鲁棒性如何？微软等WSDM2023《领域泛化》教程，阐述域泛化(DG)最新进展以及ChatGPT等大模型分布外性能

专知会员服务

40+阅读 · 2023年3月1日

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

【TPAMI2022】TransCL：基于Transformer的压缩学习，更灵活更强大

专知会员服务

24+阅读 · 2022年8月2日

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

清华49页长文全方位分析参数高效微调方案Delta Tuning，揭秘大模型背后的机理

专知会员服务

50+阅读 · 2022年4月8日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

68+阅读 · 2022年4月9日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

产业智能官

23+阅读 · 2019年7月3日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

FAIR最新视觉论文集锦：FPN，RetinaNet，Mask和Mask-X RCNN（含代码实现）

AI科技评论

16+阅读 · 2018年4月7日

相关论文

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

Arxiv

0+阅读 · 5月4日

FloatSOM: GPU-Accelerated, Distributed, Topology-Flexible Self-Organizing Maps

Arxiv

0+阅读 · 4月29日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 4月27日

PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning

Arxiv

0+阅读 · 4月22日

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Arxiv

0+阅读 · 4月21日

FETTA: Flexible and Efficient Hardware Accelerator for Tensorized Neural Network Training

Arxiv

0+阅读 · 3月29日

DIP: Efficient Large Multimodal Model Training with Dynamic Interleaved Pipeline

Arxiv

0+阅读 · 3月23日

Fillerbuster: Unified Generative Scene Completion Model for Casual Captures

Arxiv

0+阅读 · 3月16日

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Arxiv

0+阅读 · 3月14日

SPARe: Stacked Parallelism with Adaptive Reordering for Fault-Tolerant LLM Pretraining Systems with 100k+ GPUs

Arxiv

0+阅读 · 2月27日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员