We present the first kernel-fused SAR Range Doppler pipeline on any GPU platform. By fusing FFT, matched-filter multiply, and IFFT into a single Metal compute dispatch -- keeping all intermediate data in 32\,KiB on-chip memory -- we process a $4096\!\times\!4096$ complex SAR scene in \textbf{370\,ms} on an Apple M1 GPU, a \textbf{22$\times$} speedup over the multi-dispatch baseline (8.16\,s). We further report the first FFT to exploit Apple's \texttt{simdgroup\_matrix} 8$\times$8 hardware MMA, enabled by an in-place Cooley--Tukey decimation-in-frequency formulation that halves the memory footprint versus Stockham. Radar image quality is preserved: all five point targets show 0.0\,dB SNR deviation from the unfused FP32 reference.


翻译:我们提出了首个在任何 GPU 平台上实现的核融合 SAR 距离多普勒流水线。通过将 FFT、匹配滤波相乘和 IFFT 融合为单个 Metal 计算调度——将所有中间数据保持在 32 KiB 的片上内存中——我们在苹果 M1 GPU 上处理一个 $4096\!\times\!4096$ 的复值 SAR 场景仅需 \textbf{370 毫秒},相比多调度基线(8.16 秒)实现了 \textbf{22 倍}的加速。我们进一步首次报告了利用苹果 \texttt{simdgroup\_matrix} 8$\times$8 硬件 MMA 的 FFT,这得益于一种原位 Cooley-Tukey 频率抽取公式,将内存占用减半至 Stockham 方法。雷达图像质量得到保持:所有五个点目标的 SNR 偏差相对于未融合的 FP32 参考均为 0.0 dB。

0
下载
关闭预览

相关内容

DeepSeek R1 最新全面综述,近两个月的深度思考!
专知会员服务
36+阅读 · 2025年2月20日
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
44+阅读 · 2023年4月5日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
SAR成像原理及图像鉴赏
无人机
21+阅读 · 2017年8月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
DeepSeek R1 最新全面综述,近两个月的深度思考!
专知会员服务
36+阅读 · 2025年2月20日
130亿参数,8个A100训练,UC伯克利发布对话模型Koala
专知会员服务
44+阅读 · 2023年4月5日
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
SAR成像原理及图像鉴赏
无人机
21+阅读 · 2017年8月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员