Tuning parallel file system in High-Performance Computing (HPC) systems remains challenging due to the complex I/O paths, diverse I/O patterns, and dynamic system conditions. While existing autotuning frameworks have shown promising results in tuning PFS parameters based on applications' I/O patterns, they lack scalability, adaptivity, and the ability to operate online. In this work, focusing on scalable online tuning, we present CARAT, an ML-guided framework to co-tune client-side RPC and caching parameters of PFS, leveraging only locally observable metrics. Unlike global or pattern-dependent approaches, CARAT enables each client to make independent and intelligent tuning decisions online, responding to real-time changes in both application I/O behaviors and system states. We then prototyped CARAT using Lustre and evaluated it extensively across dynamic I/O patterns, real-world HPC workloads, and multi-client deployments. The results demonstrated that CARAT can achieve up to 3x performance improvement over the default or static configurations, validating the effectiveness and generality of our approach. Due to its scalability and lightweight, we believe CARAT has the potential to be widely deployed into existing PFS and benefit various data-intensive applications.


翻译:在高性能计算系统中,由于复杂的I/O路径、多样化的I/O模式以及动态变化的系统状态,并行文件系统的调优仍面临严峻挑战。现有自动调优框架虽能基于应用程序的I/O模式对PFS参数进行调优并取得显著效果,但其可扩展性、自适应性和在线运行能力存在不足。本研究聚焦于可扩展的在线调优,提出CARAT——一种基于机器学习引导的框架,仅利用本地可观测指标即可协同调优PFS的客户端RPC与缓存参数。与全局或模式依赖型方法不同,CARAT使每个客户端能够在线做出独立智能的调优决策,实时响应应用程序I/O行为与系统状态的变化。我们基于Lustre实现了CARAT原型,并在动态I/O模式、真实HPC工作负载及多客户端部署场景中进行了全面评估。实验结果表明,相较于默认或静态配置,CARAT最高可实现3倍的性能提升,验证了该方法的有效性与普适性。凭借其可扩展性与轻量化特性,我们相信CARAT具备广泛部署于现有PFS的潜力,能为各类数据密集型应用带来性能增益。

0
下载
关闭预览

相关内容

端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
计算体系架构研究综述与思考
专知会员服务
72+阅读 · 2022年3月21日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
【HPC】HPC高性能计算知识: 主要应用场景和软件
产业智能官
22+阅读 · 2019年3月27日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
18+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
计算体系架构研究综述与思考
专知会员服务
72+阅读 · 2022年3月21日
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
【HPC】HPC高性能计算知识: 主要应用场景和软件
产业智能官
22+阅读 · 2019年3月27日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
【CPS】社会物理信息系统(CPSS)及其典型应用
产业智能官
16+阅读 · 2018年9月18日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员