Continuous benchmarking: Keeping pace with an evolving ecosystem of models and technologies - 专知论文

会员服务 ·

0

Continuity · MoDELS · Integration · 讲稿 · Automator ·

Continuous benchmarking: Keeping pace with an evolving ecosystem of models and technologies

翻译：持续基准测试：与不断演变的模型和技术生态系统保持同步

Jan Vogelsang,Melissa Lober,Catherine Mia Schöfmann,José Villamar,Dennis Terhorst,Johanna Senk,Hans Ekkehard Plesser,Markus Diesmann,Susanne Kunkel,Anno C. Kurth

from arxiv, 20 pages, 8 figures

Drawing on ideas from continuous integration, we present concepts of an automated benchmarking pipeline for high performance applications. Customization and collaboration have been key design goals owing to the requirements of research-software development as a continuous community effort. We have extended our previous conceptual work on systematic benchmarking workflows with the functionality of user-agnostic operations as well as continuous benchmarking. This fosters reproducibility and re-use of benchmarking results to ensure sustainable technological progress. We provide software-engineering solutions to keep pace with the rapid evolution of both large-scale models and high-performance computing systems with a view towards the scientific domains of neuroscience and artificial intelligence.

翻译：基于持续集成的理念，我们提出了面向高性能应用的自动化基准测试流水线概念。考虑到研究型软件开发作为持续社区协作的需求，可定制化与协同性已成为关键设计目标。我们扩展了先前关于系统性基准测试工作流程的概念研究，新增了用户无关操作及持续基准测试功能。这促进了基准测试结果的可复现性与复用性，从而确保可持续的技术进步。我们提供了软件工程解决方案，以跟上大规模模型与高性能计算系统快速演进的步伐，重点关注神经科学和人工智能科学领域。

0

相关内容

Continuity

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

在线持续学习：方法、挑战与基准的系统性文献综述，46页pdf

在线持续学习：方法、挑战与基准的系统性文献综述，46页pdf

专知会员服务

38+阅读 · 2025年1月12日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

【综述】持续学习与预训练模型综述

【综述】持续学习与预训练模型综述

专知会员服务

55+阅读 · 2024年1月30日

持续学习：研究综述

持续学习：研究综述

专知会员服务

83+阅读 · 2023年1月30日

「连续学习Continual learning, CL」最新2022研究综述

「连续学习Continual learning, CL」最新2022研究综述

专知会员服务

85+阅读 · 2022年6月26日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

184+阅读 · 2020年9月7日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

继往开来！目标检测二十年技术综述

继往开来！目标检测二十年技术综述

AI100

17+阅读 · 2019年6月15日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

产业智能官

35+阅读 · 2019年4月11日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

技术多元化对企业持续创新的影响及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

The Right Call for Software Benchmarking: Consistent Decisions in Stateful Environments

Arxiv

0+阅读 · 6月15日

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

Benchmark Everything Everywhere All at Once

Arxiv

0+阅读 · 6月4日

Benchmarking Continuous Dynamic Multi-Objective Optimization: Survey and Generalized Test Suite

Arxiv

0+阅读 · 6月2日

Efficient Benchmarking Is Just Feature Selection and Multiple Regression

Arxiv

0+阅读 · 5月29日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 5月22日

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Arxiv

0+阅读 · 5月19日

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

7+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

【斯坦福博士论文】走向具身智能与机器人技术的综合基准测试

专知会员服务

21+阅读 · 2025年6月22日

在线持续学习：方法、挑战与基准的系统性文献综述，46页pdf

在线持续学习：方法、挑战与基准的系统性文献综述，46页pdf

专知会员服务

38+阅读 · 2025年1月12日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

【综述】持续学习与预训练模型综述

【综述】持续学习与预训练模型综述

专知会员服务

55+阅读 · 2024年1月30日

持续学习：研究综述

持续学习：研究综述

专知会员服务

83+阅读 · 2023年1月30日

「连续学习Continual learning, CL」最新2022研究综述

「连续学习Continual learning, CL」最新2022研究综述

专知会员服务

85+阅读 · 2022年6月26日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

184+阅读 · 2020年9月7日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

继往开来！目标检测二十年技术综述

继往开来！目标检测二十年技术综述

AI100

17+阅读 · 2019年6月15日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

【目标检测】【深度学习】基于深度学习的目标检测算法近5年发展历史（综述）

产业智能官

35+阅读 · 2019年4月11日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN

数据挖掘入门与实战

13+阅读 · 2018年4月6日

相关论文

The Right Call for Software Benchmarking: Consistent Decisions in Stateful Environments

Arxiv

0+阅读 · 6月15日

LabOSBench: Benchmarking Computer Use Agents for Scientific Instrument Control

Arxiv

0+阅读 · 6月15日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

Benchmark Everything Everywhere All at Once

Arxiv

0+阅读 · 6月4日

Benchmarking Continuous Dynamic Multi-Objective Optimization: Survey and Generalized Test Suite

Arxiv

0+阅读 · 6月2日

Efficient Benchmarking Is Just Feature Selection and Multiple Regression

Arxiv

0+阅读 · 5月29日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

Arxiv

0+阅读 · 5月22日

The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Arxiv

0+阅读 · 5月19日

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Arxiv

0+阅读 · 5月18日

相关基金

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

技术多元化对企业持续创新的影响及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下基于多源数据协同的个性化服务关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员