DynamiQ: Accelerating Gradient Synchronization using Compressed Multi-hop All-reduce - 专知论文

会员服务 ·

0

多跳 · 梯度 · 系统 · 基线 · 常成 ·

DynamiQ: Accelerating Gradient Synchronization using Compressed Multi-hop All-reduce

翻译：DynamiQ：利用压缩多跳全规约加速梯度同步

Wenchen Han,Shay Vargaftik,Michael Mitzenmacher,Ran Ben Basat

from arxiv, 18 pages, 18 figures

Multi-hop all-reduce is the de facto backbone of large model training. As the training scale increases, the network often becomes a bottleneck, motivating reducing the volume of transmitted data. Accordingly, recent systems demonstrated significant acceleration of the training process using gradient quantization. However, these systems are not optimized for multi-hop aggregation, where entries are partially summed multiple times along their aggregation topology. This paper presents DynamiQ, a quantization framework that bridges the gap between quantization best practices and multi-hop aggregation. DynamiQ introduces novel techniques to better represent partial sums, co-designed with a decompress-accumulate-recompress fused kernel to facilitate fast execution. We extended PyTorch DDP to support DynamiQ over NCCL P2P, and across different LLMs, tasks, and scales, we demonstrate consistent improvement of up to 34.2% over the best among state-of-the-art methods such as Omni-Reduce, THC, and emerging standards such as MXFP4, MXFP6, and MXFP8. Further, DynamiQ is the only evaluated method that consistently reaches near-baseline accuracy (e.g., 99.9% of the BF16 baseline) and does so while significantly accelerating the training.

翻译：多跳全规约是大模型训练的事实性骨干。随着训练规模的扩大，网络常常成为瓶颈，这促使人们减少传输数据量。相应地，近期系统通过使用梯度量化展示了训练过程的显著加速。然而，这些系统并未针对多跳聚合进行优化，在多跳聚合中，数据条目会沿着其聚合拓扑被部分求和多次。本文提出了DynamiQ，一个弥合量化最佳实践与多跳聚合之间差距的量化框架。DynamiQ引入了新颖的技术以更好地表示部分和，并与解压缩-累加-再压缩融合内核协同设计，以促进快速执行。我们扩展了PyTorch DDP以支持基于NCCL P2P的DynamiQ，并在不同的LLM、任务和规模上，展示了相对于Omni-Reduce、THC等最先进方法以及MXFP4、MXFP6、MXFP8等新兴标准中的最佳方法，高达34.2%的持续改进。此外，DynamiQ是唯一一个在显著加速训练的同时，能够持续达到接近基线精度（例如，达到BF16基线的99.9%）的评估方法。

0

相关内容

《多跳战术网络中 5G 及其他侧链路通信的作用》

《多跳战术网络中 5G 及其他侧链路通信的作用》

专知会员服务

29+阅读 · 2024年6月6日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

无线多跳网络物理层安全理论与关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

高动态方向性多跳自组网传输调度理论研究与实现

国家自然科学基金

1+阅读 · 2015年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂网络演化的多跳中继网络容量优化与节能机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Arxiv

0+阅读 · 3月8日

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 2月25日

MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation

Arxiv

0+阅读 · 2月23日

Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws

Arxiv

0+阅读 · 2月23日

AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG

Arxiv

0+阅读 · 2月22日

Trivance: Latency-Optimal AllReduce by Shortcutting Multiport Networks

Arxiv

0+阅读 · 2月19日

CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering

Arxiv

0+阅读 · 2月5日

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Arxiv

0+阅读 · 2月2日

Full-Batch Gradient Descent Outperforms One-Pass SGD: Sample Complexity Separation in Single-Index Learning

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《多跳战术网络中 5G 及其他侧链路通信的作用》

《多跳战术网络中 5G 及其他侧链路通信的作用》

专知会员服务

29+阅读 · 2024年6月6日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

通过条件梯度进行结构化机器学习训练，50页ppt与视频

通过条件梯度进行结构化机器学习训练，50页ppt与视频

专知会员服务

13+阅读 · 2021年2月25日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

相关论文

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Arxiv

0+阅读 · 3月8日

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 2月25日

MIBoost: A Gradient Boosting Algorithm for Variable Selection After Multiple Imputation

Arxiv

0+阅读 · 2月23日

Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws

Arxiv

0+阅读 · 2月23日

AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG

Arxiv

0+阅读 · 2月22日

Trivance: Latency-Optimal AllReduce by Shortcutting Multiport Networks

Arxiv

0+阅读 · 2月19日

CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering

Arxiv

0+阅读 · 2月5日

SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

Arxiv

0+阅读 · 2月2日

Full-Batch Gradient Descent Outperforms One-Pass SGD: Sample Complexity Separation in Single-Index Learning

Arxiv

0+阅读 · 2月2日

AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism

Arxiv

0+阅读 · 1月30日

相关基金

无线多跳网络物理层安全理论与关键技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

高动态方向性多跳自组网传输调度理论研究与实现

国家自然科学基金

1+阅读 · 2015年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂网络演化的多跳中继网络容量优化与节能机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员