Machine learning models are increasingly used for software security tasks. These models are commonly trained and evaluated on large Internet-derived datasets, which often contain duplicated or highly similar samples. When such samples are split across training and test sets, data leakage may occur, allowing models to memorize patterns instead of learning to generalize. We investigate duplication in a widely used benchmark dataset of hard coded secrets and show how data leakage can substantially inflate the reported performance of AI-based secret detectors, resulting in a misleading picture of their real-world effectiveness.


翻译:机器学习模型在软件安全任务中的应用日益广泛。这些模型通常基于大规模互联网衍生数据集进行训练和评估,而这些数据集往往包含重复或高度相似的样本。当此类样本被分割至训练集和测试集时,可能发生数据泄露,导致模型倾向于记忆模式而非学习泛化能力。本研究针对一个广泛使用的硬编码秘密基准数据集中的重复现象展开调查,揭示了数据泄露如何显著夸大基于人工智能的秘密检测器所报告的性能指标,从而对其实际应用效果产生误导性评估。

0
下载
关闭预览

相关内容

【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
预训练模型的新兴安全与隐私问题:综述与展望
专知会员服务
20+阅读 · 2024年11月13日
机器遗忘综述:技术与新出现的隐私风险
专知会员服务
24+阅读 · 2024年6月16日
面向机器学习模型安全的测试与修复
专知会员服务
54+阅读 · 2023年2月5日
专知会员服务
23+阅读 · 2021年8月22日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
专知会员服务
40+阅读 · 2020年12月20日
机器学习模型安全与隐私研究综述
专知会员服务
115+阅读 · 2020年11月12日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关VIP内容
【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
预训练模型的新兴安全与隐私问题:综述与展望
专知会员服务
20+阅读 · 2024年11月13日
机器遗忘综述:技术与新出现的隐私风险
专知会员服务
24+阅读 · 2024年6月16日
面向机器学习模型安全的测试与修复
专知会员服务
54+阅读 · 2023年2月5日
专知会员服务
23+阅读 · 2021年8月22日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
专知会员服务
40+阅读 · 2020年12月20日
机器学习模型安全与隐私研究综述
专知会员服务
115+阅读 · 2020年11月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员