Bug reports provide critical insights into software quality, yet existing datasets often suffer from limited scope, outdated content, or insufficient metadata for machine learning. To address these limitations, we present GitBugs-a comprehensive and up-to-date dataset comprising over 150,000 bug reports from nine actively maintained open-source projects, including Firefox, Cassandra, and VS Code. GitBugs aggregates data from Github, Bugzilla and Jira issue trackers, offering standardized categorical fields for classification tasks and predefined train/test splits for duplicate bug detection. In addition, it includes exploratory analysis notebooks and detailed project-level statistics, such as duplicate rates and resolution times. GitBugs supports various software engineering research tasks, including duplicate detection, retrieval augmented generation, resolution prediction, automated triaging, and temporal analysis. The openly licensed dataset provides a valuable cross-project resource for benchmarking and advancing automated bug report analysis. Access the data and code at https://github.com/av9ash/gitbugs/.


翻译:缺陷报告为软件质量提供了关键洞察,但现有数据集常存在范围有限、内容过时或机器学习所需元数据不足等问题。为应对这些局限性,本文提出GitBugs——一个全面且最新的数据集,涵盖来自九个活跃维护的开源项目(包括Firefox、Cassandra和VS Code)的超过15万份缺陷报告。GitBugs聚合了来自Github、Bugzilla和Jira问题跟踪系统的数据,为分类任务提供标准化分类字段,并为重复缺陷检测提供预定义的训练/测试划分。此外,该数据集包含探索性分析笔记本和详细的项目级统计数据,如重复率和解决时间。GitBugs支持多种软件工程研究任务,包括重复检测、检索增强生成、解决预测、自动分类处理和时序分析。该开放许可数据集为基准测试和推进自动化缺陷报告分析提供了宝贵的跨项目资源。数据与代码访问地址:https://github.com/av9ash/gitbugs/。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
69+阅读 · 2023年7月28日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
10+阅读 · 2021年1月31日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
重磅:git checkout 未来将消失
Python程序员
15+阅读 · 2019年8月22日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
12+阅读 · 2019年1月30日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
4+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
2+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
2+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
基于数据优化的人机协同与机器人僚机
专知会员服务
7+阅读 · 4月16日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员