Modern processors deliver higher throughput for lower-precision arithmetic than for higher-precision arithmetic. For matrix multiplication, the Ozaki scheme exploits this performance gap by splitting the inputs into lower-precision components and delegating the computation to optimized lower-precision routines. However, no similar approach exists for the fast Fourier transform (FFT). Here, we propose a method that computes target-precision FFTs using lower-precision FFTs by applying the Ozaki scheme to the cyclic convolution in the Bluestein FFT. The split component convolutions are computed exactly using the number theoretic transform (NTT), an FFT over a finite field, instead of floating-point FFTs, combined with the Chinese remainder theorem. We introduce an upper bound on the number of splits and an NTT-domain accumulation strategy to reduce the NTT call count. As a concrete implementation, we implement a double-precision FFT using 32-bit NTTs and confirm reduced relative error compared with those for FFTs based on FFTW and Triple-Single precision arithmetic, with stable error across FFT lengths, at most 96 NTT calls, or 64 NTT calls with NTT-domain accumulation. On an Intel Xeon Platinum 8468 for lengths $n=2^{10}$-$2^{18}$, the execution time is approximately 107-1315$\times$ that of FFTW's double-precision FFT, with NTTs accounting for approximately 80% of the total time.


翻译:现代处理器在低精度算术运算中的吞吐量高于高精度算术运算。对于矩阵乘法,Ozaki方案通过将输入拆分为低精度分量并将计算委托给优化的低精度例程来利用这种性能差距。然而,对于快速傅里叶变换(FFT),尚无类似方法。本文提出一种方法,通过将Ozaki方案应用于Bluestein FFT中的循环卷积,使用低精度FFT计算目标精度FFT。拆分后的分量卷积通过数论变换(NTT)(一种有限域上的FFT)结合中国剩余定理精确计算,而非使用浮点FFT。我们引入了拆分次数的上界和NTT域累加策略以减少NTT调用次数。作为具体实现,我们使用32位NTT实现了双精度FFT,并验证了与基于FFTW和三倍单精度算术的FFT相比相对误差降低,且误差在不同FFT长度下保持稳定,最多需96次NTT调用,或采用NTT域累加时仅需64次。在Intel Xeon Platinum 8468处理器上,针对长度$n=2^{10}$-$2^{18}$,执行时间约为FFTW双精度FFT的107-1315倍,其中NTT占总时间的约80%。

0
下载
关闭预览

相关内容

【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
《利用深度学习进行目标姿态估计》2023最新63页论文
专知会员服务
47+阅读 · 2023年8月29日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月29日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
4+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
23+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
5+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
17+阅读 · 5月25日
相关VIP内容
【博士论文】利用图结构加速稀疏计算
专知会员服务
18+阅读 · 2025年3月6日
《利用深度学习进行目标姿态估计》2023最新63页论文
专知会员服务
47+阅读 · 2023年8月29日
相关资讯
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
一文读懂图像压缩算法
七月在线实验室
17+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员