From Data Leak to Secret Misses: The Impact of Data Leakage on Secret Detection Models - 专知论文

会员服务 ·

0

数据泄露 · 数据集 · 检测模型 · 样本 · 学习模型 ·

From Data Leak to Secret Misses: The Impact of Data Leakage on Secret Detection Models

翻译：从数据泄露到秘密遗漏：数据泄露对秘密检测模型的影响

Farnaz Soltaniani,Mohammad Ghafari

Machine learning models are increasingly used for software security tasks. These models are commonly trained and evaluated on large Internet-derived datasets, which often contain duplicated or highly similar samples. When such samples are split across training and test sets, data leakage may occur, allowing models to memorize patterns instead of learning to generalize. We investigate duplication in a widely used benchmark dataset of hard coded secrets and show how data leakage can substantially inflate the reported performance of AI-based secret detectors, resulting in a misleading picture of their real-world effectiveness.

翻译：机器学习模型在软件安全任务中的应用日益广泛。这些模型通常基于大规模互联网衍生数据集进行训练和评估，而这些数据集往往包含重复或高度相似的样本。当此类样本被分割至训练集和测试集时，可能发生数据泄露，导致模型倾向于记忆模式而非学习泛化能力。本研究针对一个广泛使用的硬编码秘密基准数据集中的重复现象展开调查，揭示了数据泄露如何显著夸大基于人工智能的秘密检测器所报告的性能指标，从而对其实际应用效果产生误导性评估。

0

相关内容

数据泄露

【博士论文】小型和大型模型的不确定性估计

【博士论文】小型和大型模型的不确定性估计

专知会员服务

21+阅读 · 2025年7月11日

预训练模型的新兴安全与隐私问题：综述与展望

预训练模型的新兴安全与隐私问题：综述与展望

专知会员服务

20+阅读 · 2024年11月13日

机器遗忘综述：技术与新出现的隐私风险

机器遗忘综述：技术与新出现的隐私风险

专知会员服务

24+阅读 · 2024年6月16日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【UAI2021最佳论文】利用Fisher信息测量机器学习模型中的数据泄漏

专知会员服务

17+阅读 · 2021年8月5日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

Protecting the Undeleted in Machine Unlearning

Arxiv

0+阅读 · 2月18日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

Password Strength Detection via Machine Learning: Analysis, Modeling, and Evaluation

Arxiv

0+阅读 · 2月10日

Rethinking the effects of data contamination in Code Intelligence

Arxiv

0+阅读 · 2月6日

Privacy Amplification by Missing Data

Arxiv

0+阅读 · 2月4日

Explanations Leak: Membership Inference with Differential Privacy and Active Learning Defense

Arxiv

0+阅读 · 2月3日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

5+阅读 · 今天11:13

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

4+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

5+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

4+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

2+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

3+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

2+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

5+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

8+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

6+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

5+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

5+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

9+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

7+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

7+阅读 · 今天2:13

相关VIP内容

【博士论文】小型和大型模型的不确定性估计

【博士论文】小型和大型模型的不确定性估计

专知会员服务

21+阅读 · 2025年7月11日

预训练模型的新兴安全与隐私问题：综述与展望

预训练模型的新兴安全与隐私问题：综述与展望

专知会员服务

20+阅读 · 2024年11月13日

机器遗忘综述：技术与新出现的隐私风险

机器遗忘综述：技术与新出现的隐私风险

专知会员服务

24+阅读 · 2024年6月16日

面向机器学习模型安全的测试与修复

面向机器学习模型安全的测试与修复

专知会员服务

54+阅读 · 2023年2月5日

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

【干货书】隐私保留机器学习，Privacy-Preserving Machine Learning

专知会员服务

27+阅读 · 2022年4月6日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【UAI2021最佳论文】利用Fisher信息测量机器学习模型中的数据泄漏

专知会员服务

17+阅读 · 2021年8月5日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

77+阅读 · 2021年3月31日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

机器学习模型安全与隐私研究综述

机器学习模型安全与隐私研究综述

专知会员服务

115+阅读 · 2020年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

伊朗战争停火期间美军关键弹药状况分析

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

相关资讯

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关论文

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

The influence of missing data mechanisms and simple missing data handling techniques on fairness

Arxiv

0+阅读 · 2月19日

Protecting the Undeleted in Machine Unlearning

Arxiv

0+阅读 · 2月18日

Error Propagation and Model Collapse in Diffusion Models: A Theoretical Study

Arxiv

0+阅读 · 2月18日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

Password Strength Detection via Machine Learning: Analysis, Modeling, and Evaluation

Arxiv

0+阅读 · 2月10日

Rethinking the effects of data contamination in Code Intelligence

Arxiv

0+阅读 · 2月6日

Privacy Amplification by Missing Data

Arxiv

0+阅读 · 2月4日

Explanations Leak: Membership Inference with Differential Privacy and Active Learning Defense

Arxiv

0+阅读 · 2月3日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员