The fused multiply-add (FMA) instruction enables the radix-2 FFT butterfly to be computed in 6~FMA operations -- the proven minimum. The classical factorization by Linzer and Feig~\cite{linzer1993} precomputes the ratio $\cotθ= \cosθ/\sinθ$, which is singular when the twiddle factor is $W^0 = 1$ (i.e., $\sinθ= 0$). Standard practice clamps $\sinθ$ to a small epsilon, degrading numerical precision. We observe that an alternative factorization using $\cosθ$ as the outer multiplier (precomputing $\tanθ$) avoids this particular singularity but introduces a new one at $W^{N/4}$. We then propose a \emph{dual-select} strategy that chooses, per twiddle factor, whichever factorization yields $|\text{ratio}| \leq 1$. This eliminates all singularities, requires no epsilon clamping, and bounds the precomputed ratio to unity for all twiddle factors. For $N = 1024$, the worst-case ratio drops from 163 (Linzer-Feig) to exactly~1.0 (dual-select), yielding a $235\times$ tighter error bound in FP16 arithmetic over 10~FFT passes. The strategy adds zero computational overhead -- only the precomputed twiddle table changes.


翻译:融合乘法-加法(FMA)指令使得基-2 FFT蝶形运算仅需6次FMA操作即可完成——这已被证明是最优计算量。Linzer与Feig~\cite{linzer1993}的经典分解方法预计算比率$\cotθ= \cosθ/\sinθ$,当旋转因子为$W^0 = 1$(即$\sinθ= 0$)时存在奇异性。标准处理方法将$\sinθ$截断为微小量epsilon,但会降低数值精度。我们观察到,采用$\cosθ$作为外乘数(预计算$\tanθ$)的替代分解可避免该特定奇异性,但会在$W^{N/4}$处引入新奇异性。为此,我们提出了一种\emph{双选择}策略:对每个旋转因子,选择使得$|\text{ratio}| \leq 1$的分解方式。该方法消除了所有奇异性,无需epsilon截断,并将所有旋转因子的预计算比率限制在单位值以内。当$N=1024$时,最差情况比率从163(Linzer-Feig方法)降至精确1.0(双选择方法),在FP16算术下经过10次FFT传递后,误差界可收紧$235\times$。该策略不增加任何计算开销——仅需修改预计算旋转因子表。

0
下载
关闭预览

相关内容

《利用近端策略优化估计最佳飞行轨迹》最新140页
专知会员服务
21+阅读 · 2024年11月14日
【博士论文】基于冲量的加速优化算法
专知会员服务
28+阅读 · 2021年11月29日
专知会员服务
37+阅读 · 2021年9月12日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【泡泡点云时空】ICP算法的高效变种
泡泡机器人SLAM
10+阅读 · 2019年7月14日
【学界】CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现
GAN生成式对抗网络
16+阅读 · 2019年5月3日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
一文读懂FM算法优势,并用python实现!(附代码)
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月29日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
4+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
22+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
5+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
17+阅读 · 5月25日
相关资讯
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【泡泡点云时空】ICP算法的高效变种
泡泡机器人SLAM
10+阅读 · 2019年7月14日
【学界】CVPR 2019 Oral 目标跟踪最强算法SiamRPN++开源实现
GAN生成式对抗网络
16+阅读 · 2019年5月3日
从泰勒展开来看梯度下降算法
深度学习每日摘要
13+阅读 · 2019年4月9日
一文读懂FM算法优势,并用python实现!(附代码)
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员