Multi-GPU Hybrid Particle-in-Cell Monte Carlo Simulations for Exascale Computing Systems - 专知论文

会员服务 ·

0

蒙特卡罗 · PIC · 有向 · 讲稿 · AMD ·

Multi-GPU Hybrid Particle-in-Cell Monte Carlo Simulations for Exascale Computing Systems

翻译：面向百亿亿次计算系统的多GPU混合粒子网格蒙特卡罗仿真

Jeremy J. Williams,Jordy Trilaksono,Stefan Costea,Yi Ju,Luca Pennati,Jonah Ekelund,David Tskhakaya,Leon Kos,Ales Podolnik,Jakub Hromadka,Allen D. Malony,Sameer Shende,Tilman Dannert,Frank Jenko,Erwin Laure,Stefano Markidis

from arxiv, Accepted by ICCS 2026 (The 26th International Conference on Computational Science), prepared in English, formatted according to the Springer LNCS templates and consists of 15 pages, which includes the main text, references, and figures

Particle-in-Cell (PIC) Monte Carlo (MC) simulations are central to plasma physics but face increasing challenges on heterogeneous HPC systems due to excessive data movement, synchronization overheads, and inefficient utilization of multiple accelerators. In this work, we present a portable, multi-GPU hybrid MPI+OpenMP implementation of BIT1 that enables scalable execution on both Nvidia and AMD accelerators through OpenMP target tasks with explicit dependencies to overlap computation and communication across devices. Portability is achieved through persistent device-resident memory, an optimized contiguous one-dimensional data layout, and a transition from unified to pinned host memory to improve large data-transfer efficiency, together with GPU Direct Memory Access (DMA) and runtime interoperability for direct device-pointer access. Standardized and scalable I/O is provided using openPMD and ADIOS2, supporting high-performance file I/O, in-memory data streaming, and in-situ analysis and visualization. Performance results on pre-exascale and exascale systems, including Frontier (OLCF-5) for up to 16,000 GPUs, demonstrate significant improvements in run time, scalability, and resource utilization for large-scale PIC MC simulations.

翻译：粒子网格（PIC）蒙特卡罗（MC）仿真是等离子体物理的核心方法，但在异构高性能计算（HPC）系统上面临数据移动量过大、同步开销过高及多加速器利用率低下等日益严峻的挑战。本文提出了一种可移植的多GPU混合MPI+OpenMP实现方案，该方案基于BIT1程序，利用具有显式依赖关系的OpenMP目标任务实现设备间计算与通信重叠，从而支持在Nvidia和AMD加速器上可扩展执行。可移植性通过以下技术实现：持久化设备驻留内存、优化的连续一维数据布局、从统一内存到固定主机内存的转换以提升大数据传输效率，以及GPU直接内存访问（DMA）和运行时互操作性以实现直接设备指针访问。标准化且可扩展的输入输出采用openPMD和ADIOS2，支持高性能文件I/O、内存数据流传输以及原位分析与可视化。在预百亿亿次及百亿亿次系统（包括使用多达16,000个GPU的Frontier (OLCF-5)）上的性能结果表明，该方案在大型PIC MC仿真的运行时间、可扩展性和资源利用率方面均有显著提升。

0

相关内容

蒙特卡罗

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

11+阅读 · 5月4日

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

专知会员服务

25+阅读 · 2025年2月21日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

76+阅读 · 2024年3月5日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

专知会员服务

559+阅读 · 2023年3月15日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

泡泡机器人SLAM

17+阅读 · 2019年4月30日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于计算晶粒法的颗粒增强金属基复合材料高性能仿真

国家自然科学基金

1+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月12日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月10日

A Diffusion Monte Carlo algorithm employing depth first traversal and a stack instead of a swarm

Arxiv

0+阅读 · 6月8日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

Magnum.np.distributed: Accelerating Finite Difference Micromagnetic Simulations with Multiple GPUs

Arxiv

0+阅读 · 5月31日

Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月18日

Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月14日

Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling

Arxiv

0+阅读 · 5月8日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

11+阅读 · 5月4日

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

专知会员服务

25+阅读 · 2025年2月21日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

Claude3技术报告，全面升级多模态＋百万Token上下窗口，中英文版

专知会员服务

76+阅读 · 2024年3月5日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

专知会员服务

559+阅读 · 2023年3月15日

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

牛津大学发布首篇《Transformer多模态学习》综述论文，23页pdf涵盖310篇文献全面阐述MMT的理论与应用

专知会员服务

124+阅读 · 2022年6月15日

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

ML模型太多该咋用？CMU-邢波教授视频报告《标准化与可组合机器学习》乐高式构建机器学习系统（附视频与报告）

专知会员服务

37+阅读 · 2020年8月16日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

泡泡机器人SLAM

17+阅读 · 2019年4月30日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

未来产业促进会

18+阅读 · 2019年3月10日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

2018年6月13日精彩内容推荐（蒙特卡洛方法教程、2018深度学习视频行为识别概述等）

Chatbots技术与产品

42+阅读 · 2018年6月13日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

相关论文

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月12日

A Fast Locality Simulator for GEMM Design-Space Exploration on Multi-Chiplet GPUs

Arxiv

0+阅读 · 6月10日

A Diffusion Monte Carlo algorithm employing depth first traversal and a stack instead of a swarm

Arxiv

0+阅读 · 6月8日

Heterogeneous Mapping for Analog In-Memory Computing Accelerators: A Unified Workflow

Arxiv

0+阅读 · 6月1日

Magnum.np.distributed: Accelerating Finite Difference Micromagnetic Simulations with Multiple GPUs

Arxiv

0+阅读 · 5月31日

Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月18日

Unified Simulation of Lagrangian Particle Dynamics via Transformer

Arxiv

0+阅读 · 5月14日

Accelerating Precise End-to-End Simulation: Latency-Sensitive Many-core System Modeling

Arxiv

0+阅读 · 5月8日

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Arxiv

0+阅读 · 5月5日

相关基金

基于云计算的动态分布式多目标粒子群算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于计算晶粒法的颗粒增强金属基复合材料高性能仿真

国家自然科学基金

1+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员