Security bug reports require prompt identification to minimize the window of vulnerability in software systems. Traditional machine learning (ML) techniques for classifying bug reports to identify security bug reports rely heavily on large amounts of labeled data. However, datasets for security bug reports are often scarce in practice, leading to poor model performance and limited applicability in real-world settings. In this study, we propose a few-shot learning-based technique to effectively identify security bug reports using limited labeled data. We employ SetFit, a state-of-the-art few-shot learning framework that combines sentence transformers with contrastive learning and parameter-efficient fine-tuning. The model is trained on a small labeled dataset of bug reports and is evaluated on its ability to classify these reports as either security-related or non-security-related. Our approach achieves an AUC of 0.865, at best, outperforming traditional ML techniques (baselines) for all of the evaluated datasets. This highlights the potential of SetFit to effectively identify security bug reports. SetFit-based few-shot learning offers a promising alternative to traditional ML techniques to identify security bug reports. The approach enables efficient model development with minimal annotation effort, making it highly suitable for scenarios where labeled data is scarce.


翻译:安全缺陷报告需要及时识别,以最小化软件系统中的漏洞暴露窗口。用于分类缺陷报告以识别安全缺陷报告的传统机器学习技术严重依赖大量标注数据。然而,安全缺陷报告的数据集在实践中往往稀缺,导致模型性能不佳且在实际场景中的适用性有限。在本研究中,我们提出一种基于小样本学习的技术,利用有限的标注数据有效识别安全缺陷报告。我们采用SetFit——一种结合句子Transformer、对比学习和参数高效微调的先进小样本学习框架。该模型在少量标注的缺陷报告数据集上进行训练,并评估其将报告分类为安全相关或非安全相关的能力。我们的方法最佳AUC达到0.865,在所有评估数据集上均优于传统机器学习技术。这凸显了SetFit有效识别安全缺陷报告的潜力。基于SetFit的小样本学习为识别安全缺陷报告提供了一种有前景的传统机器学习替代方案。该方法能以最少的标注工作实现高效的模型开发,使其非常适合标注数据稀缺的场景。

0
下载
关闭预览

相关内容

专知会员服务
10+阅读 · 2021年1月31日
专知会员服务
40+阅读 · 2020年12月20日
专知会员服务
113+阅读 · 2020年3月20日
从 ICLR 2019 一览小样本学习最新进展!
AI科技评论
15+阅读 · 2019年6月9日
小样本学习(Few-shot Learning)综述
机器之心
18+阅读 · 2019年4月1日
【领域报告】小样本学习年度进展|VALSE2018
深度学习大讲堂
26+阅读 · 2018年6月14日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员