Effective data center cooling is crucial for reliable operation; however, cooling systems often exhibit inefficiencies that result in excessive energy consumption. This paper presents a three-stage, physics-guided machine learning framework for identifying and reducing cooling energy waste in high-performance computing facilities. Using one year of 10-minute resolution operational data from the Frontier exascale supercomputer, we first train a monotonicity-constrained gradient boosting surrogate that predicts facility accessory power from coolant flow rates, temperatures, and server power. The surrogate achieves a mean absolute error of 0.026 MW and predicts power usage effectiveness within 0.01 of measured values for 98.7% of test samples. In the second stage, the surrogate serves as a physics-consistent baseline to quantify excess cooling energy, revealing approximately 85 MWh of annual inefficiency concentrated in specific months, hours, and operating regimes. The third stage evaluates guardrail-constrained counterfactual adjustments to supply temperature and subloop flows, demonstrating that up to 96% of identified excess can be recovered through small, safe setpoint changes while respecting thermal limits and operational constraints. The framework yields interpretable recommendations, supports counterfactual analyses such as flow reduction during low-load periods and redistribution of thermal duty across cooling loops, and provides a practical pathway toward quantifiable reductions in accessory power. The developed framework is readily compatible with model predictive control and can be extended to other liquid-cooled data centers with different configurations and cooling requirements.


翻译:高效的数据中心冷却对于可靠运行至关重要;然而,冷却系统常表现出低效性,导致能耗过高。本文提出了一种三阶段、物理引导的机器学习框架,用于识别和减少高性能计算设施中的冷却能量浪费。利用来自Frontier百亿亿次超级计算机为期一年、分辨率为10分钟的运行数据,我们首先训练了一个单调性约束的梯度提升代理模型,该模型根据冷却液流量、温度和服务器功率预测设施辅助功率。该代理模型实现了0.026 MW的平均绝对误差,并在98.7%的测试样本中将电力使用效率预测值控制在实测值的0.01范围内。在第二阶段,该代理模型作为物理一致的基线来量化超额冷却能耗,揭示了每年约85 MWh的低效能耗,这些能耗集中在特定月份、时段和运行工况中。第三阶段评估了在安全护栏约束下对供水温度和子回路流量的反事实调整,结果表明,通过微小且安全的设定点改变,在遵守热限值和运行约束的同时,可回收高达96%的已识别超额能耗。该框架产生可解释的建议,支持反事实分析(例如低负载期间的流量减少和跨冷却回路的热负荷重新分配),并为辅助功率的可量化降低提供了实用途径。所开发的框架易于与模型预测控制兼容,并可扩展到具有不同配置和冷却需求的其他液冷数据中心。

0
下载
关闭预览

相关内容

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员