Scientific workflows are pipelines of interdependent tasks. They are increasingly executed on shared Kubernetes clusters via workflow engines such as Nextflow. Their energy consumption matters for both cost and sustainability. It is necessary to examine and optimize workflow tasks individually, because they can be very heterogeneous. However, estimating task-level energy on clusters is difficult: Intel RAPL counters report only node-level energy, access to counters and host process information is typically restricted, and concurrent workloads introduce resource contention and measurement noise. We present Nf-PEAK, a containerized method to attribute CPU-package and DRAM energy to individual processes and Nextflow tasks. Nf-PEAK (i) identifies workflow pods, (ii) maps pods to host processes via cgroup metadata, (iii) samples RAPL and per-process performance counters, and (iv) applies a non-linear energy-credit model before aggregating results at task level. On a Kubernetes cluster, we evaluate three nf-core workflows under controlled co-located CPU load. Nf-PEAK reaches an average Mean Absolute Percentage Error of 6.6% in isolated runs and 10.9% when an unrelated workload saturates 8 of 32 hardware threads per node, and remains stable across 2, 3, 4, and 8 nodes. Compared to the state-of-the-art Kubernetes tool Kepler, Nf-PEAK yields lower error on average, particularly under co-located load.


翻译:科学工作流是由相互依赖的任务组成的流水线。这些工作流越来越多地通过Nextflow等工作流引擎在共享的Kubernetes集群上执行。其能源消耗对成本与可持续性均至关重要。由于工作流任务可能具有高度异构性,因此有必要对单个任务进行独立检查与优化。然而,在集群上估算任务级能耗存在诸多困难:Intel RAPL计数器仅报告节点级能耗,计数器与主机进程信息的访问通常受限,同时并发工作负载会引发资源争用与测量噪声。我们提出Nf-PEAK,这是一种容器化方法,可将CPU封装与DRAM能耗归因至单个进程与Nextflow任务。Nf-PEAK通过以下步骤实现:(i)识别工作流Pod,(ii)通过cgroup元数据将Pod映射至主机进程,(iii)采样RAPL与逐进程性能计数器,(iv)在任务级聚合结果前应用非线性能量信用模型。我们在Kubernetes集群上,于受控的共置CPU负载下评估了三个nf-core工作流。在隔离运行中,Nf-PEAK的平均绝对百分比误差为6.6%;当无关工作负载使每个节点32个硬件线程中的8个饱和时,该误差为10.9%,且在2、3、4、8个节点的配置下保持稳定。与当前最先进的Kubernetes工具Kepler相比,Nf-PEAK的平均误差更低,尤其是在共置负载条件下。

0
下载
关闭预览

相关内容

Kubernetes 是一个自动化部署,扩展,以及容器化管理应用程序的开源系统。
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
【Yoshua Bengio最新一作论文】GFlowNet基础,GFlowNet Foundations
专知会员服务
26+阅读 · 2021年11月22日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
70+阅读 · 2020年1月17日
流程/过程挖掘(Process Mining)最新综述
PaperWeekly
23+阅读 · 2022年9月19日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
【Yoshua Bengio最新一作论文】GFlowNet基础,GFlowNet Foundations
专知会员服务
26+阅读 · 2021年11月22日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
70+阅读 · 2020年1月17日
相关资讯
流程/过程挖掘(Process Mining)最新综述
PaperWeekly
23+阅读 · 2022年9月19日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
面试题:请简要介绍下tensorflow的计算图
七月在线实验室
14+阅读 · 2019年6月10日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
tensorflow项目学习路径
北京思腾合力科技有限公司
10+阅读 · 2017年11月23日
tensorflow系列笔记:流程,概念和代码解析
北京思腾合力科技有限公司
30+阅读 · 2017年11月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员