exaCB: Reproducible Continuous Benchmark Collections at Scale Leveraging an Incremental Approach - 专知论文

会员服务 ·

0

基准 · 基准测试 · 系统 · 集成 · 软件 ·

exaCB: Reproducible Continuous Benchmark Collections at Scale Leveraging an Incremental Approach

翻译：exaCB：可复现的持续基准测试大规模集合——利用增量方法

Jayesh Badwaik,Mathis Bode,Michal Rajski,Andreas Herten

The increasing heterogeneity of high-performance computing (HPC) systems and the transition to exascale architectures require systematic and reproducible performance evaluation across diverse workloads. While continuous integration (CI) ensures functional correctness in software engineering, performance and energy efficiency in HPC are typically evaluated outside CI workflows, motivating continuous benchmarking (CB) as a complementary approach. Integrating benchmarking into CI workflows enables reproducible evaluation, early detection of regressions, and continuous validation throughout the software development lifecycle. We present exaCB, a framework for continuous benchmarking developed in the context of the JUPITER exascale system. exaCB enables application teams to integrate benchmarking into their workflows while supporting large-scale, system-wide studies through reusable CI/CD components, established harnesses, and a shared reporting protocol. The framework supports incremental adoption, allowing benchmarks to be onboarded easily and to evolve from basic runnability to more advanced instrumentation and reproducibility. The approach is demonstrated in JUREAP, the early-access program for JUPITER, where exaCB enabled continuous benchmarking of over 70 applications at varying maturity levels, supporting cross-application analysis, performance tracking, and energy-aware studies. These results illustrate the practicality using exaCB for continuous benchmarking for exascale HPC systems across large, diverse collections of scientific applications.

翻译：高性能计算（HPC）系统日益异构化以及向百亿亿次级架构的转型，要求对多样化工作负载进行系统且可复现的性能评估。虽然持续集成（CI）确保了软件工程中的功能正确性，但HPC中的性能和能效通常在CI工作流之外评估，这促使持续基准测试作为补充方法出现。将基准测试集成到CI工作流中，可在软件开发全生命周期实现可复现性评估、回归问题的早期检测以及持续验证。我们提出exaCB框架——一个为JUPITER百亿亿次级系统开发的持续基准测试框架。exaCB支持应用团队将基准测试集成到其工作流中，同时通过可复用的CI/CD组件、既定测试框架和共享报告协议，支撑大规模、系统级的研究。该框架支持增量式采用，使基准测试易于接入，并能从基础可运行性逐步演进至更高级的仪器化和可复现性。该方法已在JUPITER早期接入计划JUREAP中得到验证——exaCB支持了70余个不同成熟度应用的持续基准测试，实现了跨应用分析、性能跟踪和能效相关研究。这些结果验证了exaCB在百亿亿次级HPC系统上，针对大规模、多样化科学应用集合实施持续基准测试的实用性。

0

相关内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

【AAAI2023】类增量学习的在线超参数优化

【AAAI2023】类增量学习的在线超参数优化

专知会员服务

20+阅读 · 2023年1月18日

《战斗资源分配支持 (CORALS) 持续集成策略》54页技术报告，加拿大国防研究与发展部：通过自动化软件开发、构建、测试、集成和部署过程实现更快的交付

《战斗资源分配支持 (CORALS) 持续集成策略》54页技术报告，加拿大国防研究与发展部：通过自动化软件开发、构建、测试、集成和部署过程实现更快的交付

专知会员服务

22+阅读 · 2022年12月26日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

184+阅读 · 2020年9月7日

【CVPR 2020 Oral】小样本类增量学习

专知会员服务

112+阅读 · 2020年6月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

产业智能官

35+阅读 · 2019年4月11日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC

Arxiv

0+阅读 · 4月29日

Continuous benchmarking: Keeping pace with an evolving ecosystem of models and technologies

Arxiv

0+阅读 · 4月17日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 4月17日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

PICO: Performance Insights for Collective Operations

Arxiv

0+阅读 · 4月11日

PRBench: End-to-end Paper Reproduction in Physics Research

Arxiv

0+阅读 · 3月29日

Exqutor: Extended Query Optimizer for Vector-augmented Analytical Queries

Arxiv

0+阅读 · 3月29日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 3月21日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

SuiteEval: Simplifying Retrieval Benchmarks

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

2+阅读 · 58分钟前

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

1+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

8+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

【博士论文】面向可扩展科学计算的并行编程系统，187页pdf

专知会员服务

25+阅读 · 2024年4月22日

【AAAI2023】类增量学习的在线超参数优化

【AAAI2023】类增量学习的在线超参数优化

专知会员服务

20+阅读 · 2023年1月18日

《战斗资源分配支持 (CORALS) 持续集成策略》54页技术报告，加拿大国防研究与发展部：通过自动化软件开发、构建、测试、集成和部署过程实现更快的交付

《战斗资源分配支持 (CORALS) 持续集成策略》54页技术报告，加拿大国防研究与发展部：通过自动化软件开发、构建、测试、集成和部署过程实现更快的交付

专知会员服务

22+阅读 · 2022年12月26日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

184+阅读 · 2020年9月7日

【CVPR 2020 Oral】小样本类增量学习

专知会员服务

112+阅读 · 2020年6月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

产业智能官

35+阅读 · 2019年4月11日

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

占坑！利用 JenKins 持续集成 iOS 项目时遇到的问题

DevOps时代

36+阅读 · 2018年7月19日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

A Test Taxonomy and Continuous Integration Ecosystem for Dynamic Resource Management in HPC

Arxiv

0+阅读 · 4月29日

Continuous benchmarking: Keeping pace with an evolving ecosystem of models and technologies

Arxiv

0+阅读 · 4月17日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 4月17日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

PICO: Performance Insights for Collective Operations

Arxiv

0+阅读 · 4月11日

PRBench: End-to-end Paper Reproduction in Physics Research

Arxiv

0+阅读 · 3月29日

Exqutor: Extended Query Optimizer for Vector-augmented Analytical Queries

Arxiv

0+阅读 · 3月29日

Stannic: Systolic STochAstic ONliNe SchedulIng AcCelerator

Arxiv

0+阅读 · 3月21日

AI Application Benchmarking: Power-Aware Performance Analysis for Vision and Language Models

Arxiv

0+阅读 · 3月17日

SuiteEval: Simplifying Retrieval Benchmarks

Arxiv

0+阅读 · 2月20日

相关基金

大块板状样品中子核数据宏观基准检验研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员