Locality-driven integration is a pervasive computational pattern in quantum chemistry, arising whenever spatially localized basis functions interact through numerical quadrature or integral screening. The dominant matrix multiplications in these tasks exhibit dynamic, structured sparsity driven by spatial locality, posing significant challenges for both dense batched kernels and generic sparse formats on GPUs. We present KerneLDI, a GPU-oriented framework that addresses this regime by co-designing data layout, screening logic, and matrix-computation operators to realize block-structured matrix multiplication for locality-driven integration. KerneLDI reorganizes operand matrices into a unified block-filtered representation that retains only spatially relevant blocks, and executes the resulting contractions with customized dense block multipliers that adapt proven dense-matmul optimizations to retained block pairs. We develop and evaluate KerneLDI on exchange--correlation (EXC) integration in Kohn--Sham density functional theory, a representative and computationally critical instance of this pattern. Across diverse molecular systems, KerneLDI preserves numerical accuracy while delivering up to 10$\times$ speedup for EXC evaluation over a dense GPU baseline, scales favorably with increasing system size and multi-GPU parallelism, accelerates end-to-end self-consistent field calculations, and yields nearly 6$\times$ throughput improvement for ab initio molecular dynamics.


翻译:局域性驱动积分是量子化学中普遍存在的计算模式,只要空间局域基函数通过数值求积或积分筛选产生相互作用就会出现该模式。这些任务中的主导矩阵乘法展现出由空间局域性驱动的动态结构化稀疏性,给GPU上的稠密批处理核函数和通用稀疏格式带来重大挑战。我们提出KerneLDI——一个面向GPU的框架,通过协同设计数据布局、筛选逻辑和矩阵计算算子来实现基于块结构矩阵乘法的局域性驱动积分。KerneLDI将操作数矩阵重组为统一的块筛选表示,仅保留空间相关块,并使用自适应稠密块乘法器执行所得收缩运算,该乘法器将经过验证的稠密矩阵乘法优化方法应用于保留的块对。我们在Kohn-Sham密度泛函理论中的交换相关(EXC)积分(该模式的一个典型且计算关键的实例)上开发和评估了KerneLDI。针对不同分子系统,KerneLDI在保持数值精度的同时,相比稠密GPU基线实现了EXC评估高达10倍的加速,随系统规模增加和多GPU并行性展现出良好的可扩展性,加速了端到端自洽场计算,并实现了从头算分子动力学近6倍的吞吐量提升。

0
下载
关闭预览

相关内容

【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
专知会员服务
37+阅读 · 2021年9月12日
专知会员服务
25+阅读 · 2021年7月31日
专知会员服务
16+阅读 · 2021年7月7日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
超全总结:神经网络加速之量化模型 | 附带代码
【干货】理解深度学习中的矩阵运算
机器学习研究会
18+阅读 · 2018年2月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员