Background: Machine learning algorithms are widely used to predict defect prone software components. In this literature, computational experiments are the main means of evaluation, and the credibility of results depends on experimental design and reporting. Objective: This paper audits recent software defect prediction (SDP) studies by assessing their experimental design, analysis, and reporting practices against accepted norms from statistics, machine learning, and empirical software engineering. The aim is to characterise current practice and assess the reproducibility of published results. Method: We audited SDP studies indexed in SCOPUS between 2019 and 2023, focusing on design and analysis choices such as outcome measures, out of sample validation strategies, and the use of statistical inference. Nine study issues were evaluated. Reproducibility was assessed using the instrument proposed by González Barahona and Robles. Results: The search identified approximately 1,585 SDP experiments published during the period. From these, we randomly sampled 101 papers, including 61 journal and 40 conference publications, with almost 50 percent behind paywalls. We observed substantial variation in research practice. The number of datasets ranged from 1 to 365, learners or learner variants from 1 to 34, and performance measures from 1 to 9. About 45 percent of studies applied formal statistical inference. Across the sample, we identified 427 issues, with a median of four per paper, and only one paper without issues. Reproducibility ranged from near complete to severely limited. We also identified two cases of tortured phrases and possible paper mill activity. Conclusions: Experimental design and reporting practices vary widely, and almost half of the studies provide insufficient detail to support reproduction. The audit indicates substantial scope for improvement.


翻译:背景:机器学习算法被广泛应用于预测易产生缺陷的软件组件。在该研究领域中,计算实验是主要的评估手段,其结果的可信度取决于实验设计与报告的质量。目的:本文通过依据统计学、机器学习和实证软件工程领域的公认规范,评估近期软件缺陷预测(SDP)研究的实验设计、分析与报告实践,旨在描述当前实践现状并评估已发表结果的可复现性。方法:我们审计了2019年至2023年间收录于SCOPUS的SDP研究,重点关注其设计与分析选择,例如结果度量指标、样本外验证策略以及统计推断的使用。共评估了九个研究问题。可复现性使用González Barahona和Robles提出的工具进行评估。结果:检索确定了该期间发表的约1,585项SDP实验。从中,我们随机抽样了101篇论文,包括61篇期刊论文和40篇会议论文,其中近50%为付费墙后内容。我们观察到研究实践存在显著差异。数据集数量从1到365不等,学习器或其变体从1到34种,性能度量指标从1到9种。约45%的研究应用了正式的统计推断。在整个样本中,我们识别出427个问题,每篇论文的中位问题数为4个,仅有一篇论文未发现问题。可复现性范围从近乎完整到严重受限。我们还识别出两例存在"受折磨短语"及可能的论文工厂活动的情况。结论:实验设计与报告实践差异巨大,近半数研究提供的细节不足以支持复现。审计结果表明存在巨大的改进空间。

0
下载
关闭预览

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
面向机器学习模型安全的测试与修复
专知会员服务
54+阅读 · 2023年2月5日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
40+阅读 · 2020年12月20日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月17日
VIP会员
相关VIP内容
相关资讯
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
19+阅读 · 2020年8月11日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员