How to benchmark: the Measure-Explain-Test-Improve loop - 专知论文

会员服务 ·

0

基准 · 基准测试 · 性能评估 · CVPR 2022 · 计算机科学 ·

How to benchmark: the Measure-Explain-Test-Improve loop

翻译：如何做好基准测试：测量-解释-测试-改进循环

Gabriel Scherer

from arxiv, sources available at https://codeberg.org/gasche-papers/how-to-benchmark

I would like to share recommendations on how to do performance benchmarks for the purpose of computer science research evaluation. Research in my field (programming language research) often involves performance considerations, but it is typically not the main tool used to evaluate our research (typically we evaluate via formal statements and their proofs, experience writing large or interesting examples, or systematic comparison of expressivity, feature set, etc.). My impression is that, as a result, we tend to not do our performance evaluation very well. In the present document I will try to explain a methodology to do benchmarking correctly (I hope!). People with no former benchmarking experience should be able to build solid performance evaluation as part of their research. I explain the justification for each aspect along the way.

翻译：我想就如何为计算机科学研究评估进行性能基准测试分享一些建议。我所从事的研究领域（编程语言研究）通常涉及性能考量，但这并非我们评估研究的主要工具（通常我们通过形式化陈述及其证明、撰写大型或有趣示例的经验、或对表达能力、功能特性集等进行系统比较来评估）。我的印象是，因此我们往往未能很好地开展性能评估。在本文档中，我将尝试解释一种正确进行基准测试的方法（希望如此！）。没有基准测试经验的研究人员应能以此为基础，在他们的研究中构建起可靠的性能评估体系。我将沿途解释每个环节的合理性依据。

0

相关内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

基于深度学习的小目标检测基准研究进展

基于深度学习的小目标检测基准研究进展

专知会员服务

30+阅读 · 2024年4月30日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

88+阅读 · 2022年2月20日

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

专知会员服务

19+阅读 · 2021年2月12日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

2019最全目标检测指南

2019最全目标检测指南

计算机视觉life

13+阅读 · 2019年10月22日

做目标检测，这一篇就够了！2019最全目标检测指南

做目标检测，这一篇就够了！2019最全目标检测指南

机器学习算法与Python学习

30+阅读 · 2019年9月11日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

深度学习入门：投身深度学习你需要哪些准备？

深度学习入门：投身深度学习你需要哪些准备？

机器学习研究会

13+阅读 · 2017年11月25日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

From Quality Properties to Practice: A Guideline and Workflow for Explainability Requirements

Arxiv

0+阅读 · 6月9日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月13日

The LLM Effect on IR Benchmarks: A Meta-Analysis of Effectiveness, Baselines, and Contamination

Arxiv

0+阅读 · 4月7日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Arxiv

0+阅读 · 3月27日

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Arxiv

0+阅读 · 3月26日

Post-Selection Distributional Model Evaluation

Arxiv

0+阅读 · 3月24日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

VIP会员

文章信息

相关主题

计算机科学

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

重磅！《大模型基准测试体系研究报告》（2024年），52页pdf

专知会员服务

94+阅读 · 2024年7月11日

基于深度学习的小目标检测基准研究进展

基于深度学习的小目标检测基准研究进展

专知会员服务

30+阅读 · 2024年4月30日

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

【ICML2022教程】效度，可靠性和意义:可复现机器学习的统计方法教程，147页ppt

专知会员服务

16+阅读 · 2022年7月20日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

88+阅读 · 2022年2月20日

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

专知会员服务

19+阅读 · 2021年2月12日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

32+阅读 · 2020年12月20日

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

【优化基准：最佳实践，54页pdf】Benchmarking in Optimization: Best Practice and Open Issues

专知会员服务

25+阅读 · 2020年7月28日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

2019最全目标检测指南

2019最全目标检测指南

计算机视觉life

13+阅读 · 2019年10月22日

做目标检测，这一篇就够了！2019最全目标检测指南

做目标检测，这一篇就够了！2019最全目标检测指南

机器学习算法与Python学习

30+阅读 · 2019年9月11日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

密歇根大学40页《20年目标检测综述》最新论文，带你全面了解目标检测方法

专知

70+阅读 · 2019年5月14日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

干货 | 基于深度学习的目标检测算法综述：常见问题及解决方案

AI前线

10+阅读 · 2018年11月2日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

深度学习入门：投身深度学习你需要哪些准备？

深度学习入门：投身深度学习你需要哪些准备？

机器学习研究会

13+阅读 · 2017年11月25日

相关论文

From Quality Properties to Practice: A Guideline and Workflow for Explainability Requirements

Arxiv

0+阅读 · 6月9日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

Randomness as Reference: Benchmark Metric for Optimization in Engineering

Arxiv

0+阅读 · 4月16日

ParseBench: A Document Parsing Benchmark for AI Agents

Arxiv

0+阅读 · 4月13日

The LLM Effect on IR Benchmarks: A Meta-Analysis of Effectiveness, Baselines, and Contamination

Arxiv

0+阅读 · 4月7日

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

Arxiv

0+阅读 · 3月31日

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Arxiv

0+阅读 · 3月27日

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Arxiv

0+阅读 · 3月26日

Post-Selection Distributional Model Evaluation

Arxiv

0+阅读 · 3月24日

Benchmarks for Automated Commonsense Reasoning: A Survey

Arxiv

44+阅读 · 2023年2月22日

相关基金

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员