D-PDLP：将PDLP扩展至分布式多GPU系统 (D-PDLP: Scaling PDLP to Distributed Multi-GPU Systems) - 专知论文

会员服务 ·

0

GPU · 系统 · 划分 · 混合 · 梯度 ·

D-PDLP: Scaling PDLP to Distributed Multi-GPU Systems

翻译：D-PDLP：将PDLP扩展至分布式多GPU系统

Hongpei Li,Yicheng Huang,Huikang Liu,Dongdong Ge,Yinyu Ye

from arxiv, A First-Order LP Solver Accelerated on Multiple GPUs

We present a distributed framework of the Primal-Dual Hybrid Gradient (PDHG) algorithm for solving massive-scale linear programming (LP) problems. Although PDHG-based solvers demonstrate strong performance on single-node GPU architectures, their applicability to industrial-scale instances is often limited by single-GPU computational throughput. To overcome these challenges, we propose D-PDLP, the first Distributed PDLP framework, which extends PDHG to a multi-GPU setting via a practical two-dimensional grid partitioning of the constraint matrix. To improve load balance and computational efficiency, we introduce a block-wise random permutation strategy combined with nonzero-aware matrix partitioning. By distributing the intensive computation required in PDHG iterations, the proposed framework harnesses multi-GPU parallelism to achieve substantial speedups with relatively low communication overhead. Extensive experiments on standard LP benchmarks (including MIPLIB and Mittelmann instances) as well as huge-scale real-world datasets show that our distributed implementation, built upon cuPDLPx, achieves strong scalability and high performance while preserving full FP64 numerical accuracy.

翻译：我们提出了一种用于求解大规模线性规划问题的原始-对偶混合梯度算法的分布式框架。尽管基于PDHG的求解器在单节点GPU架构上表现出强大的性能，但其在工业级规模问题上的适用性常受限于单GPU的计算吞吐量。为克服这些挑战，我们提出了首个分布式PDLP框架——D-PDLP，该框架通过对约束矩阵进行实用的二维网格划分，将PDHG扩展至多GPU环境。为改善负载均衡与计算效率，我们引入了结合非零元感知矩阵划分的块级随机置换策略。通过分布式处理PDHG迭代所需的高强度计算，所提出的框架利用多GPU并行性，以相对较低的通信开销实现了显著的加速效果。在标准LP基准测试集（包括MIPLIB和Mittelmann实例）以及超大规模真实数据集上的大量实验表明，我们基于cuPDLPx构建的分布式实现，在保持完整FP64数值精度的同时，展现出强大的可扩展性与高性能。

0

相关内容

GPU

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

157+阅读 · 2023年5月4日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

专知会员服务

64+阅读 · 2022年11月13日

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

专知会员服务

53+阅读 · 2022年11月2日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

Arxiv

0+阅读 · 2月19日

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

Arxiv

0+阅读 · 2月13日

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

Arxiv

0+阅读 · 2月11日

Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements

Arxiv

0+阅读 · 2月11日

Flare: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale

Arxiv

0+阅读 · 2月9日

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching

Arxiv

0+阅读 · 2月5日

MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

Arxiv

0+阅读 · 2月3日

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

Arxiv

0+阅读 · 2月2日

DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems

Arxiv

0+阅读 · 1月28日

BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations

Arxiv

0+阅读 · 1月22日

VIP会员

文章信息

相关主题

相关VIP内容

基于多智能体深度强化学习的体系任务分配方法

基于多智能体深度强化学习的体系任务分配方法

专知会员服务

157+阅读 · 2023年5月4日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

中科院自动化所最新《分布式深度强化学习DDRL》综述，14页pdf阐述DDRL与多玩家多智能体学习工具箱

专知会员服务

41+阅读 · 2022年12月2日

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

深度学习如何解决数学方程？四川大学最新《深度神经网络偏微分方程》综述，19页pdf阐述如何用DNN有效地解决PDE

专知会员服务

64+阅读 · 2022年11月13日

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

专知会员服务

53+阅读 · 2022年11月2日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

45+阅读 · 2022年5月27日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

干货教程！百度AutoDL「自动深度学习: 理论、算法、平台和应用」132PPT

专知

21+阅读 · 2020年2月5日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

深度学习人脸识别系统DFace

深度学习人脸识别系统DFace

深度学习

17+阅读 · 2018年2月14日

并行算法演进，从MapReduce到MPI

并行算法演进，从MapReduce到MPI

凡人机器学习

10+阅读 · 2017年11月5日

相关论文

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

Arxiv

0+阅读 · 2月19日

DPUConfig: Optimizing ML Inference in FPGAs Using Reinforcement Learning

Arxiv

0+阅读 · 2月13日

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

Arxiv

0+阅读 · 2月11日

Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements

Arxiv

0+阅读 · 2月11日

Flare: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale

Arxiv

0+阅读 · 2月9日

DyTopo: Dynamic Topology Routing for Multi-Agent Reasoning via Semantic Matching

Arxiv

0+阅读 · 2月5日

MAPGD: Multi-Agent Prompt Gradient Descent for Collaborative Prompt Optimization

Arxiv

0+阅读 · 2月3日

D-CORE: Incentivizing Task Decomposition in Large Reasoning Models for Complex Tool Use

Arxiv

0+阅读 · 2月2日

DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems

Arxiv

0+阅读 · 1月28日

BanditLP: Large-Scale Stochastic Optimization for Personalized Recommendations

Arxiv

0+阅读 · 1月22日

相关基金

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于生物网络的高维多目标算法及其在分布式调度中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员