In high-order finite element analysis for elasticity, matrix-free (PA) methods are a key technology for overcoming the memory bottleneck of traditional Full Assembly (FA). However, existing implementations fail to fully exploit the special structure of modern CPU architectures and tensor-product elements, causing their performance "sweet spot" to anomalously remain at the low order of $p \approx 2$, which severely limits the potential of high-order methods. To address this challenge, we design and implement a highly optimized PA operator within the MFEM framework, deeply integrated with a Geometric Multigrid (GMG) preconditioner. Our multi-level optimization strategy includes replacing the original $O(p^6)$ generic algorithm with an efficient $O(p^4)$ one based on tensor factorization, exploiting Voigt symmetry to reduce redundant computations for the elasticity problem, and employing macro-kernel fusion to enhance data locality and break the memory bandwidth bottleneck. Extensive experiments on mainstream x86 and ARM architectures demonstrate that our method successfully shifts the performance "sweet spot" to the higher-order region of $p \ge 6$. Compared to the MFEM baseline, the optimized core operator (kernel) achieves speedups of 7x to 83x, which translates to a 3.6x to 16.8x end-to-end performance improvement in the complete solution process. This paper provides a validated and efficient practical path for conducting large-scale, high-order elasticity simulations on mainstream CPU hardware.


翻译:在弹性问题的高阶有限元分析中,无矩阵(部分装配,PA)方法是克服传统全装配(FA)方法内存瓶颈的关键技术。然而,现有实现未能充分利用现代CPU架构和张量积单元的特殊结构,导致其性能"甜点"异常地停留在低阶区域($p \approx 2$),这严重限制了高阶方法的潜力。为应对这一挑战,我们在MFEM框架内设计并实现了一个高度优化的PA算子,并将其与几何多重网格(GMG)预处理器深度集成。我们的多层次优化策略包括:用基于张量分解的高效$O(p^4)$算法替代原有的$O(p^6)$通用算法;利用Voigt对称性减少弹性问题中的冗余计算;以及采用宏内核融合技术以增强数据局部性并突破内存带宽瓶颈。在主流x86和ARM架构上进行的大量实验表明,我们的方法成功地将性能"甜点"转移到了$p \ge 6$的高阶区域。与MFEM基线相比,优化后的核心算子(内核)实现了7倍至83倍的加速,这转化为完整求解过程中端到端性能3.6倍至16.8倍的提升。本文为在主流CPU硬件上进行大规模、高阶弹性模拟提供了一条经过验证且高效的实施路径。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2020年7月29日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
综述:军事应用中使用的一些重要算法
专知
12+阅读 · 2022年7月3日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
相关VIP内容
专知会员服务
46+阅读 · 2020年7月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员