The nonuniform fast Fourier transform (NUFFT) enables spectral methods for problems with irregularly spaced samples, with applications in medical imaging, molecular dynamics, and kinetic plasma simulations. Existing implementations are limited to shared-memory execution, restricting problem sizes to what fits on a single node. We present the first distributed, performance-portable NUFFT for heterogeneous supercomputers. Our Kokkos-based implementation runs without modification on NVIDIA and AMD GPUs. We develop multiple spreading and interpolation kernels optimized for different accuracy requirements and architectures. Our spreading kernels match or exceed the single-GPU throughput of the state-of-the-art CUDA-based NUFFT library cuFINUFFT at production particle densities, while our Kokkos-based implementation additionally supports AMD GPUs. Strong scaling experiments on Alps (NVIDIA GH200), JUWELS Booster (NVIDIA A100), and LUMI (AMD MI250X) demonstrate scaling up to 1024 GPUs. At scale, the distributed FFT is a significant part of the total runtime, making higher NUFFT accuracy less expensive. We apply the method to massively parallel Particle-in-Fourier simulations of Landau damping with up to $1024^3$ Fourier modes and 8.6 billion particles on Alps, JUWELS, and LUMI, demonstrating that distributed NUFFTs enable kinetic plasma simulations at resolutions previously inaccessible to spectral particle methods.


翻译:非均匀快速傅里叶变换(NUFFT)使得谱方法能够处理非均匀采样问题,在医学成像、分子动力学和等离子体动力学模拟等领域具有广泛应用。现有实现局限于共享内存执行,将问题规模限制在单节点可容纳范围内。我们提出了首个面向异构超级计算机的分布式、可移植高性能NUFFT。基于Kokkos框架的实现无需修改即可在NVIDIA和AMD GPU上运行。我们开发了多种针对不同精度要求和架构优化的扩展与插值核函数。在典型粒子密度下,我们的扩展核函数在单GPU吞吐量上达到或超越当前最先进的基于CUDA的NUFFT库cuFINUFFT,同时基于Kokkos的实现还额外支持AMD GPU。在Alps(NVIDIA GH200)、JUWELS Booster(NVIDIA A100)和LUMI(AMD MI250X)上的强扩展实验表明,该方法可扩展至1024块GPU。在规模运行中,分布式FFT占用了总运行时间的显著部分,这使得更高精度的NUFFT计算成本相对降低。我们将该方法应用于Alps、JUWELS和LUMI平台上高达$1024^3$个傅里叶模式与86亿粒子的朗道阻尼大规模并行粒子-傅里叶模拟,证明分布式NUFFT使得谱粒子方法能够达到此前无法企及的分辨率进行等离子体动力学模拟。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年7月31日
傅里叶变换和拉普拉斯变换的物理解释及区别
算法与数学之美
11+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 23分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 25分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 37分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 57分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
专知会员服务
25+阅读 · 2021年7月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员