We present the first kernel-fused SAR Range Doppler pipeline on any GPU platform. By fusing FFT, matched-filter multiply, and IFFT into a single Metal compute dispatch -- keeping all intermediate data in 32\,KiB on-chip memory -- we process a $4096\!\times\!4096$ complex SAR scene in \textbf{370\,ms} on an Apple M1 GPU, a \textbf{22$\times$} speedup over the multi-dispatch baseline (8.16\,s). We further report the first FFT to exploit Apple's \texttt{simdgroup\_matrix} 8$\times$8 hardware MMA, enabled by an in-place Cooley--Tukey decimation-in-frequency formulation that halves the memory footprint versus Stockham. Radar image quality is preserved: all five point targets show 0.0\,dB SNR deviation from the unfused FP32 reference.
翻译:我们提出了首个在任何 GPU 平台上实现的核融合 SAR 距离多普勒流水线。通过将 FFT、匹配滤波相乘和 IFFT 融合为单个 Metal 计算调度——将所有中间数据保持在 32 KiB 的片上内存中——我们在苹果 M1 GPU 上处理一个 $4096\!\times\!4096$ 的复值 SAR 场景仅需 \textbf{370 毫秒},相比多调度基线(8.16 秒)实现了 \textbf{22 倍}的加速。我们进一步首次报告了利用苹果 \texttt{simdgroup\_matrix} 8$\times$8 硬件 MMA 的 FFT,这得益于一种原位 Cooley-Tukey 频率抽取公式,将内存占用减半至 Stockham 方法。雷达图像质量得到保持:所有五个点目标的 SNR 偏差相对于未融合的 FP32 参考均为 0.0 dB。