Large 3D SIMP studies require repeated elasticity solves for density-dependent operators whose finest matrices are expensive to assemble and whose conditioning degrades under high contrast. We study this linear-solver layer rather than claiming end-to-end optimization acceleration. The solver builds a matrix-free Galerkin geometric multigrid (GMG) hierarchy around a fused fine operator: the finest level remains matrix-free, the first coarse level is assembled by local Galerkin aggregation, and deeper levels use sparse Galerkin products. The practical default is FP32-GMG; BF16 is evaluated as a guarded mixed-precision variant and diagnostic stress test, not as the main speed mechanism. In a 27-case heterogeneous cantilever sweep, pass rates under a 200-iteration budget are 7/9, 4/9, and 1/9 at 64k, 216k, and 512k elements; converged-only mean iteration counts are about 112, 134, and 146. On uniform rho=0.5, p=3 solves, FP32-GMG gives 1.62x, 1.75x, and 3.12x wall-time ratios relative to the capped flat Jacobi-PCG baseline at the same sizes; that non-converged baseline reaches the 200-iteration cap in all timed trials. BF16-GMG is not faster than FP32-GMG. In 18 fixed-seed heterogeneous BF16 validation cases, 7/18 converge, matching the FP64 count, and 11 cases that pass the spectral screen still fail the 500-iteration cap; the screen is therefore diagnostic rather than a convergence certificate. The largest reported solve is a 1M-element uniform-modulus system solved in 1.50+/-0.58 s with an 8.66 GiB hierarchy-allocation delta during setup, not a peak-memory trace; this point is reported as uniform scaling, not heterogeneous robustness evidence. The contribution is therefore a bounded single-GPU solver result built on an inherited Level 0 matrix-free operator: a Galerkin GMG hierarchy, direct BF16 guard evidence, and an explicit failure-mode screen for structured 3D SIMP linear systems.


翻译:大型三维SIMP研究需对密度相关算子进行重复弹性求解,其最细层矩阵的组装代价高昂,且高对比度条件下条件数恶化。本研究聚焦于该线性求解器层面,而非声称端到端优化加速。求解器围绕融合精细算子构建无矩阵Galerkin几何多重网格(GMG)层次结构:最细层保持无矩阵形式,第一粗层通过局部Galerkin聚合组装,更深层则采用稀疏Galerkin乘积。实际默认配置为FP32-GMG;BF16作为受保护的混合精度变体与诊断性应力测试进行评估,而非主要加速机制。在27例异质悬臂梁扫描算例中,以200次迭代预算通过率在64k、216k和512k单元数下分别为7/9、4/9及1/9;收敛算例的平均迭代次数约为112、134和146。在均匀ρ=0.5、p=3求解中,FP32-GMG相对于相同尺寸下有上限的平坦Jacobi-PCG基准,实现1.62倍、1.75倍和3.12倍的运行时间比;该未收敛基准在所有计时测试中均达到200次迭代上限。BF16-GMG性能未超越FP32-GMG。在18例固定随机种子的BF16异质验证算例中,7/18收敛,与FP64算例数量一致;11例通过谱筛选的算例仍无法满足500次迭代上限,故该筛选方法仅为诊断性工具而非收敛保证。最大规模求解报告为100万单元均匀模量系统,求解时间1.50±0.58秒,设置阶段层次分配增量为8.66 GiB(非峰值内存轨迹);该数据作为均匀缩放案例报告,而非异质鲁棒性证据。因此,本成果基于继承的Level 0无矩阵算子提供有限单GPU求解器结果:包含Galerkin GMG层次结构、直接BF16防护证据,以及面向结构化三维SIMP线性系统的显式失效模式筛选方法。

0
下载
关闭预览

相关内容

【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
三味Capsule:矩阵Capsule与EM路由
PaperWeekly
10+阅读 · 2018年3月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员