The factorization of skew-symmetric matrices is a critically understudied area of dense linear algebra, particularly in comparison to that of general and symmetric matrices. While some algorithms can be adapted from the symmetric case, the cost of algorithms can be reduced by exploiting skew-symmetry. This work examines the factorization of a skew-symmetric matrix $X$ into its $LTL^T$ decomposition, where $L$ is unit lower triangular and $T$ is tridiagonal. This is also known as a triangular tridiagonalization. This operation is a means for computing the determinant of $X$ as the square of the (cheaply-computed) Pfaffian of the skew-symmetric tridiagonal matrix $T$ as well as for solving systems of equations, across fields such as quantum electronic structure and machine learning. Its application also often requires pivoting in order to improve numerical stability. We compare and contrast previously-published algorithms with those systematically derived using the FLAME methodology. Performant parallel CPU implementations are achieved by fusing operations at multiple levels in order to reduce memory traffic overhead. A key factor is the employment of new capabilities of the BLAS-like Library Instantion Software (BLIS) framework, which now supports casting level-2 and level-3 BLAS-like operations by leveraging its gemm and other kernels, hierarchical parallelism, and cache blocking. A prototype, concise C++ API facilitates the translation of correct-by-construction algorithms into correct code. Experiments verify that the resulting implementations greatly exceed the performance of previous work.


翻译:斜对称矩阵的分解是稠密线性代数中一个研究严重不足的领域,尤其与一般矩阵和对称矩阵相比。虽然某些算法可以从对称情形中改编而来,但利用斜对称性可以降低算法的计算成本。本文研究斜对称矩阵$X$的$LTL^T$分解,其中$L$是单位下三角矩阵,$T$是三对角矩阵。这亦称为三角三对角化。该运算可用于计算$X$的行列式(作为斜对称三对角矩阵$T$的(廉价计算的)Pfaffian的平方),也可用于求解方程组,广泛应用于量子电子结构和机器学习等领域。其应用通常需要引入枢轴操作以提高数值稳定性。我们对比分析了先前发表的算法与使用FLAME方法论系统推导的算法。通过多层级融合操作以减少内存流量开销,实现了高性能并行CPU实现。一个关键因素是采用了BLAS类库实例化软件(BLIS)框架的新功能,该框架现可通过利用其gemm及其他内核、层次化并行和缓存分块来支持第二级和第三级的BLAS类操作。一个原型化、简洁的C++ API有助于将构造正确的算法转化为正确的代码。实验验证表明,所得实现性能远超先前工作。

0
下载
关闭预览

相关内容

【经典书】矩阵分析基础及其应用,409页pdf
专知会员服务
94+阅读 · 2022年11月21日
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
27+阅读 · 2020年9月18日
【硬核书】矩阵代数基础,248页pdf
专知
16+阅读 · 2021年12月9日
推荐系统之矩阵分解家族
图与推荐
13+阅读 · 2020年3月28日
从模型到应用,一文读懂因子分解机
AI100
10+阅读 · 2019年9月6日
【干货】理解深度学习中的矩阵运算
机器学习研究会
18+阅读 · 2018年2月12日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 55分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关VIP内容
【经典书】矩阵分析基础及其应用,409页pdf
专知会员服务
94+阅读 · 2022年11月21日
必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【斯坦福大学】矩阵对策的协调方法,89页pdf
专知会员服务
27+阅读 · 2020年9月18日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员