分布式深度学习放置语义学：一种分析并行策略的系统化框架 (Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies) - 专知论文

会员服务 ·

0

并行 · 系统 · 数据并行 · 分布式深度学习 · 分析 ·

Placement Semantics for Distributed Deep Learning: A Systematic Framework for Analyzing Parallelism Strategies

翻译：分布式深度学习放置语义学：一种分析并行策略的系统化框架

Deep Pankajbhai Mehta

from arxiv, 8 pages, 3 tables

Training large language models requires distributing computation across many accelerators, yet practitioners select parallelism strategies (data, tensor, pipeline, ZeRO) through trial and error because no unified systematic framework predicts their behavior. We introduce placement semantics: each strategy is specified by how it places four training states (parameters, optimizer, gradients, activations) across devices using five modes (replicated, sharded, sharded-with-gather, materialized, offloaded). From placement alone, without implementation details, we derive memory consumption and communication volume. Our predictions match published results exactly: ZeRO-3 uses 8x less memory than data parallelism at 1.5x communication cost, as reported in the original paper. We prove two conditions (gradient integrity, state consistency) are necessary and sufficient for distributed training to match single-device results, and provide composition rules for combining strategies safely. The framework unifies ZeRO Stages 1-3, Fully Sharded Data Parallel (FSDP), tensor parallelism, and pipeline parallelism as instances with different placement choices.

翻译：训练大型语言模型需要将计算分布到多个加速器上，然而实践者通常通过试错来选择并行策略（数据并行、张量并行、流水线并行、ZeRO），因为缺乏统一的系统化框架来预测其行为。我们提出放置语义学：每种策略通过使用五种模式（复制、分片、分片-聚合、物化、卸载）将四种训练状态（参数、优化器、梯度、激活值）放置于设备上的方式来定义。仅从放置方式出发，无需实现细节，我们即可推导出内存消耗与通信量。我们的预测与已发表结果完全吻合：如原论文所述，ZeRO-3 在通信成本增加 1.5 倍的情况下，比数据并行减少 8 倍内存使用。我们证明两个条件（梯度完整性、状态一致性）是分布式训练结果与单设备结果匹配的充分必要条件，并提供了安全组合策略的复合规则。该框架将 ZeRO 第 1-3 阶段、全分片数据并行（FSDP）、张量并行和流水线并行统一为具有不同放置选择的实例。

0

相关内容

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

21+阅读 · 2025年2月25日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

专知会员服务

48+阅读 · 2021年2月12日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

机器学习算法与Python学习

25+阅读 · 2017年12月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

ECHO-2: A Large Scale Distributed Rollout Framework for Cost-efficient Reinforcement Learning

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

Learning to Collaborate: An Orchestrated-Decentralized Framework for Peer-to-Peer LLM Federation

Arxiv

0+阅读 · 1月23日

Heuristics for Combinatorial Optimization via Value-based Reinforcement Learning: A Unified Framework and Analysis

Arxiv

0+阅读 · 1月19日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 1月14日

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving

Arxiv

0+阅读 · 1月9日

SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

Arxiv

0+阅读 · 1月9日

TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

Arxiv

0+阅读 · 1月7日

Performance Characterization of Distributed Deep Learning Strategies: A Quantitative Evaluation of DDP, FSDP, and Parameter Server Architectures on GPU Clusters

Arxiv

0+阅读 · 1月5日

OrchestrRL: Dynamic Compute and Network Orchestration for Disaggregated RL

Arxiv

0+阅读 · 1月3日

VIP会员

文章信息

相关主题

分布式深度学习

相关VIP内容

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

21+阅读 · 2025年2月25日

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

【牛津大学博士论文】学习分布不确定性估计的语义分割，191页pdf

专知会员服务

30+阅读 · 2024年7月31日

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例

专知会员服务

54+阅读 · 2023年12月6日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

机器学习如何分布式？看CMU这份「分布式机器学习原理与策略」AAAI2021教程，附221页ppt

专知会员服务

48+阅读 · 2021年2月12日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

【硬核书】可扩展机器学习：并行分布式方法

【硬核书】可扩展机器学习：并行分布式方法

专知会员服务

86+阅读 · 2020年5月23日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

机器学习算法与Python学习

25+阅读 · 2017年12月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

相关论文

ECHO-2: A Large Scale Distributed Rollout Framework for Cost-efficient Reinforcement Learning

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

Learning to Collaborate: An Orchestrated-Decentralized Framework for Peer-to-Peer LLM Federation

Arxiv

0+阅读 · 1月23日

Heuristics for Combinatorial Optimization via Value-based Reinforcement Learning: A Unified Framework and Analysis

Arxiv

0+阅读 · 1月19日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 1月14日

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving

Arxiv

0+阅读 · 1月9日

SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts

Arxiv

0+阅读 · 1月9日

TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

Arxiv

0+阅读 · 1月7日

Performance Characterization of Distributed Deep Learning Strategies: A Quantitative Evaluation of DDP, FSDP, and Parameter Server Architectures on GPU Clusters

Arxiv

0+阅读 · 1月5日

OrchestrRL: Dynamic Compute and Network Orchestration for Disaggregated RL

Arxiv

0+阅读 · 1月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员