Nf-PEAK: Process-Based Energy Attribution for Nextflow Workflows on Kubernetes Clusters - 专知论文

会员服务 ·

0

Kubernetes · 负载 · 中央处理器 (CPU) · 科学工作流 · 引擎 ·

Nf-PEAK: Process-Based Energy Attribution for Nextflow Workflows on Kubernetes Clusters

翻译：Nf-PEAK：面向Kubernetes集群上Nextflow工作流的基于进程的能量归因方法

Philipp Thamm,Somayeh Mohammadi,Kathleen West,Knut Reinert,Lauritz Thamsen,Ulf Leser

from arxiv, Accepted at 2026 IEEE 19th International Conference on Cloud Computing (CLOUD)

Scientific workflows are pipelines of interdependent tasks. They are increasingly executed on shared Kubernetes clusters via workflow engines such as Nextflow. Their energy consumption matters for both cost and sustainability. It is necessary to examine and optimize workflow tasks individually, because they can be very heterogeneous. However, estimating task-level energy on clusters is difficult: Intel RAPL counters report only node-level energy, access to counters and host process information is typically restricted, and concurrent workloads introduce resource contention and measurement noise. We present Nf-PEAK, a containerized method to attribute CPU-package and DRAM energy to individual processes and Nextflow tasks. Nf-PEAK (i) identifies workflow pods, (ii) maps pods to host processes via cgroup metadata, (iii) samples RAPL and per-process performance counters, and (iv) applies a non-linear energy-credit model before aggregating results at task level. On a Kubernetes cluster, we evaluate three nf-core workflows under controlled co-located CPU load. Nf-PEAK reaches an average Mean Absolute Percentage Error of 6.6% in isolated runs and 10.9% when an unrelated workload saturates 8 of 32 hardware threads per node, and remains stable across 2, 3, 4, and 8 nodes. Compared to the state-of-the-art Kubernetes tool Kepler, Nf-PEAK yields lower error on average, particularly under co-located load.

翻译：科学工作流是由相互依赖的任务组成的流水线。这些工作流越来越多地通过Nextflow等工作流引擎在共享的Kubernetes集群上执行。其能源消耗对成本与可持续性均至关重要。由于工作流任务可能具有高度异构性，因此有必要对单个任务进行独立检查与优化。然而，在集群上估算任务级能耗存在诸多困难：Intel RAPL计数器仅报告节点级能耗，计数器与主机进程信息的访问通常受限，同时并发工作负载会引发资源争用与测量噪声。我们提出Nf-PEAK，这是一种容器化方法，可将CPU封装与DRAM能耗归因至单个进程与Nextflow任务。Nf-PEAK通过以下步骤实现：（i）识别工作流Pod，（ii）通过cgroup元数据将Pod映射至主机进程，（iii）采样RAPL与逐进程性能计数器，（iv）在任务级聚合结果前应用非线性能量信用模型。我们在Kubernetes集群上，于受控的共置CPU负载下评估了三个nf-core工作流。在隔离运行中，Nf-PEAK的平均绝对百分比误差为6.6%；当无关工作负载使每个节点32个硬件线程中的8个饱和时，该误差为10.9%，且在2、3、4、8个节点的配置下保持稳定。与当前最先进的Kubernetes工具Kepler相比，Nf-PEAK的平均误差更低，尤其是在共置负载条件下。

0

相关内容

Kubernetes

Kubernetes 是一个自动化部署，扩展，以及容器化管理应用程序的开源系统。

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

35+阅读 · 2022年9月17日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

212+阅读 · 2019年12月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

流程/过程挖掘（Process Mining）最新综述

流程/过程挖掘（Process Mining）最新综述

PaperWeekly

23+阅读 · 2022年9月19日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

基于TensorFlow和Keras的图像识别

基于TensorFlow和Keras的图像识别

Python程序员

16+阅读 · 2019年6月24日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

【探索框架本源】开源中文书《TensorFlow内核剖析》，335页pdf

【探索框架本源】开源中文书《TensorFlow内核剖析》，335页pdf

专知

21+阅读 · 2018年12月22日

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

专知

13+阅读 · 2018年7月20日

tensorflow项目学习路径

tensorflow项目学习路径

北京思腾合力科技有限公司

10+阅读 · 2017年11月23日

tensorflow系列笔记：流程，概念和代码解析

tensorflow系列笔记：流程，概念和代码解析

北京思腾合力科技有限公司

30+阅读 · 2017年11月11日

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

AI科技评论

14+阅读 · 2017年9月3日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络社会的工作流关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向物理层安全的高能-谱效率协作干扰机理及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于能量采集和无线能量传输的中继协作通信

国家自然科学基金

0+阅读 · 2015年12月31日

流体环境下微纳米纤维的力学性质与动力学行为

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

再生水分目标回用过程能量流评估与优化的仿真方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

n-型共轭聚合物分子结构对其能级带隙调节机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update

Arxiv

0+阅读 · 6月11日

FlowBank: Query-Adaptive Agentic Workflows Optimization through Precompute-and-Reuse

Arxiv

0+阅读 · 6月9日

Unifying von-Neumann HPC and Neuromorphic Acceleration via the EBRAINS Research Infrastructure: A Framework for High-Performance Workflows

Arxiv

0+阅读 · 6月7日

Augur: Pre-Execution Energy Prediction for Workflow Tasks in Heterogeneous Clusters

Arxiv

0+阅读 · 5月29日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

An Ecosystem of Services for FAIR Computational Workflows

Arxiv

0+阅读 · 5月22日

Enhancing Energy Efficiency in Scientific Workflows through CFD based PIVAEs

Arxiv

0+阅读 · 5月22日

ProtoFlow: Mitigating Forgetting in Class-Incremental Remote Sensing Segmentation via Low-Curvature Prototype Flow

Arxiv

0+阅读 · 5月18日

HECTOR: Human-centric Hierarchical Coordination and Supervision of Robotic Fleets under Continual Temporal Tasks

Arxiv

0+阅读 · 5月14日

Comprehensive Plugin-Based Monitoring of Nexflow Workflow Executions

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

科学工作流

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

35+阅读 · 2022年9月17日

【博士论文】集群系统中的网络流调度

【博士论文】集群系统中的网络流调度

专知会员服务

47+阅读 · 2021年12月7日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

212+阅读 · 2019年12月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

流程/过程挖掘（Process Mining）最新综述

流程/过程挖掘（Process Mining）最新综述

PaperWeekly

23+阅读 · 2022年9月19日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

基于TensorFlow和Keras的图像识别

基于TensorFlow和Keras的图像识别

Python程序员

16+阅读 · 2019年6月24日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

浅谈 Kubernetes 在生产环境中的架构

浅谈 Kubernetes 在生产环境中的架构

DevOps时代

11+阅读 · 2019年5月8日

【探索框架本源】开源中文书《TensorFlow内核剖析》，335页pdf

【探索框架本源】开源中文书《TensorFlow内核剖析》，335页pdf

专知

21+阅读 · 2018年12月22日

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

专知

13+阅读 · 2018年7月20日

tensorflow项目学习路径

tensorflow项目学习路径

北京思腾合力科技有限公司

10+阅读 · 2017年11月23日

tensorflow系列笔记：流程，概念和代码解析

tensorflow系列笔记：流程，概念和代码解析

北京思腾合力科技有限公司

30+阅读 · 2017年11月11日

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

开发 | 用PyTorch还是TensorFlow？斯坦福大学CS博士生带来全面解答

AI科技评论

14+阅读 · 2017年9月3日

相关论文

PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update

Arxiv

0+阅读 · 6月11日

FlowBank: Query-Adaptive Agentic Workflows Optimization through Precompute-and-Reuse

Arxiv

0+阅读 · 6月9日

Unifying von-Neumann HPC and Neuromorphic Acceleration via the EBRAINS Research Infrastructure: A Framework for High-Performance Workflows

Arxiv

0+阅读 · 6月7日

Augur: Pre-Execution Energy Prediction for Workflow Tasks in Heterogeneous Clusters

Arxiv

0+阅读 · 5月29日

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Arxiv

0+阅读 · 5月26日

An Ecosystem of Services for FAIR Computational Workflows

Arxiv

0+阅读 · 5月22日

Enhancing Energy Efficiency in Scientific Workflows through CFD based PIVAEs

Arxiv

0+阅读 · 5月22日

ProtoFlow: Mitigating Forgetting in Class-Incremental Remote Sensing Segmentation via Low-Curvature Prototype Flow

Arxiv

0+阅读 · 5月18日

HECTOR: Human-centric Hierarchical Coordination and Supervision of Robotic Fleets under Continual Temporal Tasks

Arxiv

0+阅读 · 5月14日

Comprehensive Plugin-Based Monitoring of Nexflow Workflow Executions

Arxiv

0+阅读 · 3月19日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向网络社会的工作流关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向物理层安全的高能-谱效率协作干扰机理及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于能量采集和无线能量传输的中继协作通信

国家自然科学基金

0+阅读 · 2015年12月31日

流体环境下微纳米纤维的力学性质与动力学行为

国家自然科学基金

0+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

再生水分目标回用过程能量流评估与优化的仿真方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

n-型共轭聚合物分子结构对其能级带隙调节机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员