Methods for solving hyperbolic systems typically depend on unknown ordering (e.g., Gauss-Seidel, or sweep/wavefront/marching methods) to achieve good convergence. For many discretisations, mesh types or decompositions these methods do not scale well in parallel. In this work we demonstrate that the combination of AIRG (a reduction multigrid which uses GMRES polynomials) and PMISR DDC (a CF splitting algorithm which gives diagonally dominant submatrices) can be used to solve linear advection equations in parallel on GPUs with good weak scaling. We find that GMRES polynomials are well suited to GPUs when applied matrix-free, either as smoothers (at low order) or as an approximate coarse grid solver (at high order). To improve the parallel performance we automatically truncate the multigrid hierarchy given the quality of the polynomials as coarse grid solvers. Solving time-independent advection equations in 2D on structured grids, we find 66-101% weak scaling efficiency in the solve and 47-63% in the setup with AIRG, across the majority of Lumi-G, a pre-exascale GPU machine.


翻译:求解双曲型系统的方法通常依赖于未知数的排序(例如,高斯-赛德尔方法或扫描/波前/推进方法)以获得良好的收敛性。对于许多离散化方案、网格类型或分解方式而言,这些方法的并行扩展性不佳。在本工作中,我们证明了结合AIRG(一种使用GMRES多项式的约简多重网格方法)与PMISR DDC(一种能生成对角占优子矩阵的CF分裂算法),可以在GPU上并行求解线性对流方程,并具有良好的弱扩展性。我们发现,当以无矩阵方式应用时,GMRES多项式非常适合GPU计算,无论是作为光滑子(低阶时)还是作为近似粗网格求解器(高阶时)。为了提升并行性能,我们根据多项式作为粗网格求解器的质量,自动截断多重网格层次结构。通过在结构化网格上求解二维稳态对流方程,我们在Lumi-G(一台准百亿亿次GPU计算系统)的大部分节点上,测得AIRG在求解阶段的弱扩展效率为66-101%,在设置阶段为47-63%。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
16+阅读 · 2022年5月17日
VIP会员
相关VIP内容
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文浅尝 | 利用 RNN 和 CNN 构建基于 FreeBase 的问答系统
开放知识图谱
11+阅读 · 2018年4月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
相关论文
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员