We present Metal-Sci, a 10-task benchmark of scientific Apple Silicon Metal compute kernels spanning six optimization regimes (stencils, all-pairs in $n$-body problems, multi-field Boltzmann, neighbor-list molecular dynamics, multi-kernel PDE, FFT). Each task ships a CPU reference, a roofline-anchored fitness function, and a held-out generalization size. We pair the benchmark with a lightweight harness for automatic kernel search that runtime-compiles each candidate, scores it against the roofline across multiple sizes, and feeds structured compile and per-size correctness diagnostics back to a frozen LLM driving a $(1{+}1)$ evolutionary loop. We report matched single-model sweeps of Claude Opus 4.7, Gemini 3.1 Pro, and GPT 5.5 on M1 Pro: in-distribution self-speedups span $1.00\times$ to $10.7\times$. Beyond raw speedup, our central methodological claim is structural: the held-out gate scoring function $Φ_\mathcal{T}$ (evaluated once at end-of-run on a configuration the agent never sees during search) functions as a cheap mechanical oversight primitive on this automatic search loop, catching e.g. an Opus template <uint D> HMC win that returns wrong samples at unseen dimensions, and a GPT FFT3D best that wins in-distribution at $2.95\times$ speedup but collapses to $0.23\times$ on a $256^3$ held-out cube, a silent regression that the in-distribution score alone cannot see. Code at https://github.com/vicgalle/metal-sci-kernels


翻译:我们提出Metal-Sci,一个包含10个任务的科学Apple Silicon Metal计算内核基准测试,涵盖六种优化模式(模板计算、$n$体问题中的全对计算、多场玻尔兹曼、近邻列表分子动力学、多内核PDE、FFT)。每个任务提供CPU参考实现、基于屋顶线适配度的适应度函数以及保留泛化规模。我们为该基准配套设计了轻量级自动内核搜索框架,可运行时编译每个候选内核,基于屋顶线对多个规模进行评分,并将结构化编译诊断和逐规模正确性诊断反馈给驱动$(1{+}1)$进化循环的冻结大语言模型。我们在M1 Pro上报告了Claude Opus 4.7、Gemini 3.1 Pro和GPT 5.5的单模型扫描结果:分布内自加速比范围为$1.00\times$至$10.7\times$。除原始加速比外,我们的核心方法论主张具有结构性:保留门控评分函数$Φ_\mathcal{T}$(在运行结束时对搜索过程中智能体从未见过的配置进行评估)可作为该自动搜索循环的廉价机械监督原语,例如捕获Opus模板<uint D> HMC在未见维度上返回错误样本的问题,以及GPT FFT3D最优内核在分布内取得$2.95\times$加速比但在$256^3$保留立方体上崩溃至$0.23\times$加速比的静默回归——此类问题仅凭分布内分数无法检测。代码见https://github.com/vicgalle/metal-sci-kernels

0
下载
关闭预览

相关内容

最新,DeepSeek-R1论文登上Nature封面,附83页补充材料
专知会员服务
27+阅读 · 2025年9月18日
DeepSeek+DeepResearch 让科研像聊天一样简单,85页ppt
专知会员服务
48+阅读 · 2025年3月16日
牛!中国版Sci-Hub,还能下载中文文献!
材料科学与工程
26+阅读 · 2018年8月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关VIP内容
最新,DeepSeek-R1论文登上Nature封面,附83页补充材料
专知会员服务
27+阅读 · 2025年9月18日
DeepSeek+DeepResearch 让科研像聊天一样简单,85页ppt
专知会员服务
48+阅读 · 2025年3月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员