HPC systems expose many configuration parameters that jointly drive competing objectives. Existing tools such as autotuners recommend good configurations but do not identify minimal changes for a near-miss configuration to meet a performance objective, and they often ignore domain-specific constraints. To address this gap, we introduce COMPASS -- a modular, programmable engine that uses operational traces to generate HPC configuration recommendations and guide tuning decisions. This paper: (1) formalizes configuration questions into query patterns; (2) develops an interactive decision-making engine that formulates these queries as Machine Learning (ML) tasks; (3) quantifies the trustworthiness of its recommendations by providing evidence and quantifying uncertainty, and -- when confidence is low -- provides guidance on which configurations to run next. We validate COMPASS using analytical ground truth, reconstruction accuracy, reproduction of published findings, and when possible, running on real hardware. When integrated with an open-source HPC scheduling simulator, COMPASS cuts average job turnaround time by 65.93% and node usage by 80.93% relative to the state-of-the-art. Moreover, COMPASS achieves up to 100x faster training and 80x faster inference than state-of-the-art generative methods, and scales to traces with 1.3B samples and 126GB of data.


翻译:高性能计算系统暴露了许多共同驱动竞争目标的配置参数。现有工具(如自动调优器)能够推荐良好配置,但无法识别近缺失配置为达成性能目标所需的最小变更,且往往忽略领域特定约束。为填补这一空白,我们提出COMPASS——一种模块化、可编程引擎,利用运行轨迹生成高性能计算配置推荐并指导调优决策。本文:(1) 将配置问题形式化为查询模式;(2) 开发交互式决策引擎,将这些查询表述为机器学习任务;(3) 通过提供证据与量化不确定性来评估推荐的可靠性,并在置信度较低时指导后续配置方案。我们通过解析真值、重建精度、复现已发表成果以及在可能情况下部署于真实硬件等方式验证COMPASS。当与开源高性能计算调度模拟器集成时,COMPASS相较于现有最优方法,将平均作业周转时间降低65.93%,节点使用率降低80.93%。此外,COMPASS的训练速度比现有最优生成方法快至100倍,推理速度快至80倍,并可扩展至13亿样本、126GB数据规模的运行轨迹。

0
下载
关闭预览

相关内容

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence
专知会员服务
36+阅读 · 2024年11月11日
海陆空一体化作战的人工智能赋能指挥与控制系统
专知会员服务
107+阅读 · 2024年1月2日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence
专知会员服务
36+阅读 · 2024年11月11日
海陆空一体化作战的人工智能赋能指挥与控制系统
专知会员服务
107+阅读 · 2024年1月2日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员