The growing complexity and scale of scientific workflows in high performance computing (HPC) environments have led to significant challenges in managing energy consumption without compromising computational performance. Traditional scheduling strategies often fail to account for the complex interplay between thermal dynamics, workload diversity, and system scalability, leading to inefficient and unsustainable energy usage. This paper introduces a novel, scalable, and AI-assisted scheduling framework for optimizing energy consumption in HPC environments without compromising performance. Central to our approach is the integration of Computational Fluid Dynamics (CFD) with a Physics-Informed Variational Autoencoder (PIVAE), enabling the generation of physically realistic synthetic workload data that bridges the gap between thermodynamic behavior and scheduler decision-making in complex, multi-scale HPC environments. By categorizing workflows based on resource utilization profiles, we evaluate multiple scheduling strategies such as Locality Aware and Speculative Aware Scheduling. These workflows, ranging from event reconstruction to anomaly detection, represent diverse computational intensities. Our results show that modest reductions in CPU performance (e.g., to 15%) can yield substantial energy savings (up to 10%) with only minor turnaround time increases (approximately 5-6%), identifying an optimal operational sweet spot. This work demonstrates how physics-informed generative modeling can enable adaptive, sustainable, and data-efficient scheduling for next-generation HPC infrastructures.


翻译:在高性能计算(HPC)环境中,科学工作流的复杂性和规模日益增长,导致在不影响计算性能的前提下管理能耗面临重大挑战。传统调度策略往往无法兼顾热力学动态、工作负载多样性与系统可扩展性之间的复杂交互,导致低效且不可持续的能源使用。本文提出一种新颖、可扩展且基于人工智能辅助的调度框架,用于在不降低性能的前提下优化HPC环境中的能耗。该方法的核心是将计算流体动力学(CFD)与物理信息变分自编码器(PIVAE,Physics-Informed Variational Autoencoder)相结合,通过生成物理真实的合成工作负载数据,弥合复杂多尺度HPC环境中热力学行为与调度器决策之间的鸿沟。基于资源利用率特征对工作流进行分类后,我们评估了多种调度策略,如局部感知调度与推测感知调度。这些工作流涵盖事件重建到异常检测等不同计算密集度。实验结果表明,适度降低CPU性能(例如降至15%)可实现显著的能耗节约(高达10%),而周转时间仅增加约5-6%,从而识别出最优运行甜区。本研究展示了物理信息生成建模如何为下一代HPC基础设施实现自适应、可持续且数据高效的调度方案。

0
下载
关闭预览

相关内容

《中国绿色算力发展研究报告(2024年)》,81页pdf
专知会员服务
32+阅读 · 2024年7月14日
《利用人工智能加速能源转型》报告
专知会员服务
85+阅读 · 2022年2月23日
专知会员服务
29+阅读 · 2021年9月17日
以BERT为例,如何优化机器学习模型性能?
专知
10+阅读 · 2019年10月3日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员