The Just-In-Time (JIT) defect prediction model serves as a critical tool for ensuring the quality of software development and enhancing software performance. It assists development teams in promptly identifying and addressing potential issues by predicting whether code submissions may introduce defects. However, due to the existence of data noise and insufficient semantic connections in real-world scenarios, existing approaches face challenges in accurately identifying the code commits that introduce defects and capturing the potential semantic relationships. To address these challenges, we propose the BIC- Hunter(Bug-Inducing Commits Hunter) model, which mitigates data noise and improves semantic understanding, thereby enhancing the accuracy of bug-inducing commit identification. BIC - Hunter model consists of two components: a data denoising component and a semantic relationship capturing component. Specifically, the data denoising component addresses the challenges posed by inaccurate annotations and inconsistencies in real-world data, enhancing the reliability of training data and improving overall model robustness. The semantic relation- ship capturing component constructs homogeneous graphs and applies graph convolutional networks to facilitate a more comprehensive analysis of code context, enabling the identification of defects caused by code commits and enhancing the confidence in pinpointing their root causes. Experimental studies on a large-scale dataset integrated from three open-source datasets show that BIC- Hunter exhibits outstanding performance. BIC- Hunter outperforms the state-of-the-art by 6.16%, 7.13%, and 5.53% on Recall@1, Recall@2, and Recall@3, respectively, while the MFR index increases by 8.43% to 32.82%. These results demonstrate the superior capability of our method in identifying bug-inducing commits.


翻译:即时缺陷预测模型是保障软件开发质量、提升软件性能的关键工具,通过预测代码提交是否可能引入缺陷,协助开发团队及时识别和解决潜在问题。然而,实际场景中数据噪声的存在以及语义关联的不足,使得现有方法难以准确识别引入缺陷的代码提交并捕获其潜在语义关系。为解决这些挑战,我们提出BIC-Hunter(缺陷引入提交猎手)模型,该模型通过缓解数据噪声并增强语义理解能力,从而提升缺陷引入提交识别的准确性。BIC-Hunter模型包含两个组件:数据去噪组件和语义关系捕获组件。具体而言,数据去噪组件应对真实场景中标注不准确和数据不一致的挑战,增强训练数据的可靠性并提升模型整体鲁棒性;语义关系捕获组件通过构建同构图并应用图卷积网络,促进对代码上下文的全面分析,从而识别代码提交引起的缺陷,并提升定位根因的置信度。在由三个开源数据集集成的大规模数据集上的实验表明,BIC-Hunter展现出卓越性能。相较于现有最优方法,BIC-Hunter在Recall@1、Recall@2和Recall@3指标上分别提升6.16%、7.13%和5.53%,同时MFR指标提升幅度介于8.43%至32.82%之间。这些结果证明了本方法在识别缺陷引入提交方面的优越能力。

0
下载
关闭预览

相关内容

大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
10+阅读 · 2021年1月31日
专知会员服务
31+阅读 · 2020年12月7日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
基于深度学习的表面缺陷检测方法综述
专知会员服务
95+阅读 · 2020年5月31日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN
数据挖掘入门与实战
13+阅读 · 2018年4月6日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
大型语言模型系统中提示缺陷的分类学
专知会员服务
8+阅读 · 2025年9月19日
基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
10+阅读 · 2021年1月31日
专知会员服务
31+阅读 · 2020年12月7日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
基于深度学习的表面缺陷检测方法综述
专知会员服务
95+阅读 · 2020年5月31日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员