Scaling All-to-all Operations Across Emerging Many-Core Supercomputers - 专知论文

会员服务 ·

0

系统 · 众核 · 操作 · 算法 · 超级计算机 ·

Scaling All-to-all Operations Across Emerging Many-Core Supercomputers

翻译：面向新兴众核超级计算机的可扩展全对全操作

Shannon Kinkead,Jackson Wesley,Whit Schonbein,David DeBonis,Matthew G. F. Dosanjh,Amanda Bienz

Performant all-to-all collective operations in MPI are critical to fast Fourier transforms, transposition, and machine learning applications. There are many existing implementations for all-to-all exchanges on emerging systems, with the achieved performance dependent on many factors, including message size, process count, architecture, and parallel system partition. This paper presents novel all-to-all algorithms for emerging many-core systems. Further, the paper presents a performance analysis against existing algorithms and system MPI, with novel algorithms achieving up to 3x speedup over system MPI at 32 nodes of state-of-the-art Sapphire Rapids systems.

翻译：MPI中高性能的全对全集合操作对于快速傅里叶变换、矩阵转置和机器学习应用至关重要。针对新兴系统已存在多种全对全交换的实现方案，其达到的性能取决于诸多因素，包括消息大小、进程数量、体系结构以及并行系统分区。本文提出了面向新兴众核系统的新型全对全算法。此外，本文还对现有算法与系统MPI进行了性能分析，结果表明，在32个节点的先进Sapphire Rapids系统上，新型算法相比系统MPI可实现高达3倍的加速。

0

相关内容

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

通往人工超智能的道路：超级对齐的全面综述

通往人工超智能的道路：超级对齐的全面综述

专知会员服务

43+阅读 · 2024年12月24日

工业中的数字孪生：全面综述

工业中的数字孪生：全面综述

专知会员服务

78+阅读 · 2024年12月3日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

全域作战指挥信息系统总体架构及核心支柱

全域作战指挥信息系统总体架构及核心支柱

专知会员服务

145+阅读 · 2023年5月31日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

专知会员服务

112+阅读 · 2022年4月2日

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

专知会员服务

21+阅读 · 2019年11月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

产业智能官

16+阅读 · 2020年3月14日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

产业智能官

103+阅读 · 2019年3月26日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 2月17日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

Compress, Cross and Scale: Multi-Level Compression Cross Networks for Efficient Scaling in Recommender Systems

Arxiv

0+阅读 · 2月12日

To Reconfigure or Not to Reconfigure: Optimizing All-to-All Collectives in Circuit-Switched Photonic Interconnects

Arxiv

0+阅读 · 2月11日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

Mean field optimal Core Allocation across Malleable jobs

Arxiv

0+阅读 · 2月1日

Confidential Computing on Heterogeneous CPU-GPU Systems: Survey and Future Directions

Arxiv

0+阅读 · 1月26日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

CoCoPlan: Adaptive Coordination and Communication for Multi-robot Systems in Dynamic and Unknown Environments

Arxiv

0+阅读 · 1月15日

Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges

Arxiv

17+阅读 · 2021年7月10日

VIP会员

文章信息

相关主题

超级计算机

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

10+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

通往人工超智能的道路：超级对齐的全面综述

通往人工超智能的道路：超级对齐的全面综述

专知会员服务

43+阅读 · 2024年12月24日

工业中的数字孪生：全面综述

工业中的数字孪生：全面综述

专知会员服务

78+阅读 · 2024年12月3日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

全域作战指挥信息系统总体架构及核心支柱

全域作战指挥信息系统总体架构及核心支柱

专知会员服务

145+阅读 · 2023年5月31日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

【AI+军事】《为人工智能应用程序开发具有嵌入式角色的联合全域指挥和控制(JADC2) 的作战概念》，RAND最新发布10页PDF

专知会员服务

112+阅读 · 2022年4月2日

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

【新书推荐】机器学习--高级技术与新出应用（Machine Learning Advanced Techniques and Emerging Applications），Hamed Farhadi

专知会员服务

21+阅读 · 2019年11月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

34+阅读 · 2022年10月26日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

【数字孪生】数字孪生车间 | 一种未来车间运行新模式

产业智能官

16+阅读 · 2020年3月14日

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

计算的未来是 “光”！科学家开发全光学计算平台，实现 “光控制光”

学术头条

11+阅读 · 2020年3月13日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

《终身学习、可解释ML、异常检测、对抗攻击》一览讲解，台大李宏毅老师2019机器学习课程讲义PPT

专知

22+阅读 · 2019年4月13日

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

【数字孪生】超棒PPT解读Digital Twin十大领域应用！

产业智能官

103+阅读 · 2019年3月26日

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

【数字孪生】数字孪生系列报道：15家单位22位作者研究成果，数字孪生应用探索

产业智能官

53+阅读 · 2018年5月17日

相关论文

Co-Design and Evaluation of a CPU-Free MPI GPU Communication Abstraction and Implementation

Arxiv

0+阅读 · 2月17日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

Compress, Cross and Scale: Multi-Level Compression Cross Networks for Efficient Scaling in Recommender Systems

Arxiv

0+阅读 · 2月12日

To Reconfigure or Not to Reconfigure: Optimizing All-to-All Collectives in Circuit-Switched Photonic Interconnects

Arxiv

0+阅读 · 2月11日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

Mean field optimal Core Allocation across Malleable jobs

Arxiv

0+阅读 · 2月1日

Confidential Computing on Heterogeneous CPU-GPU Systems: Survey and Future Directions

Arxiv

0+阅读 · 1月26日

Spatially Generalizable Mobile Manipulation via Adaptive Experience Selection and Dynamic Imagination

Arxiv

0+阅读 · 1月21日

CoCoPlan: Adaptive Coordination and Communication for Multi-robot Systems in Dynamic and Unknown Environments

Arxiv

0+阅读 · 1月15日

Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges

Arxiv

17+阅读 · 2021年7月10日

相关基金

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

3D堆叠众核处理器共享存储访问均衡性研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向众核计算的数值方法协同设计--一种高效且高精度广义有限元方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员