Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection - 专知论文

会员服务 ·

0

分离的 · MoDELS · 相关系数 · 代码 · 评论员 ·

Separating Secrets from Placeholders: A Hybrid CNN-CodeBERT Framework for Three-Class Credential Leakage Detection

翻译：将机密从占位符中分离：一种用于三类凭证泄露检测的混合CNN-CodeBERT框架

Maksuda Bilkis Baby,Khushika Shah,Naiyue Liang,Lei Zhang

from arxiv, Accepted at ICSME 2026 (International Conference on Software Maintenance and Evolution)

Credential leakage in public source code repositories poses a critical security threat, with over 23.8 million secrets exposed in 2024 alone. Existing detection tools suffer from high false-positive rates because rigid pattern matching and binary classification schemes fail to distinguish genuine credentials from placeholder or weak credentials. We propose a three-class classification framework that explicitly models placeholder or weak credentials as a distinct class, leveraging CodeBERT-based semantic understanding combined with character-level pattern recognition. We evaluate our approach on a newly constructed dataset of 9,426 samples spanning 10 programming languages. Our model achieves a Matthews Correlation Coefficient of 0.86 and a macro F1-score of 0.90, achieving 93% recall and 89% precision for genuine credential leaks while reducing high severity alerts by 33.0% (from 373 to 250) without sacrificing security coverage. Compared to prior character-level approaches, our method improves placeholder or weak credential detection from 54% to 81% F1-score while maintaining strong cross language generalization, with 9 of 10 languages achieving F1 above 0.80 under leave-one-language-out evaluation.

翻译：公共源代码仓库中的凭证泄露构成严重安全威胁，仅2024年就暴露了超过2380万个机密。现有检测工具因僵化的模式匹配和二元分类方案难以区分真实凭证与占位符或弱凭证，导致高误报率。我们提出一种三类分类框架，将占位符或弱凭证显式建模为独立类别，结合基于CodeBERT的语义理解与字符级模式识别。我们在新构建的包含9426个样本、覆盖10种编程语言的数据集上评估该方法。模型马修斯相关系数达0.86，宏F1分数达0.90，对真实凭证泄露的召回率为93%、精确率为89%，同时将高严重性警报减少33.0%（从373降至250）且不牺牲安全覆盖范围。与先前字符级方法相比，我们的方法将占位符或弱凭证检测F1分数从54%提升至81%，并在留一语言评估中保持强大的跨语言泛化能力，10种语言中有9种F1分数超过0.80。

0

相关内容

分离的

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

8+阅读 · 5月6日

《人工智能在衍生安全密级分类中的应用：美国国防部实践》

《人工智能在衍生安全密级分类中的应用：美国国防部实践》

专知会员服务

19+阅读 · 2025年11月10日

《数据安全技术数据分类分级规则》发布

《数据安全技术数据分类分级规则》发布

专知会员服务

32+阅读 · 2024年3月22日

网络安全行业深度报告：存量改造+数据安全，商密处于上升期

网络安全行业深度报告：存量改造+数据安全，商密处于上升期

专知会员服务

26+阅读 · 2023年1月29日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

28+阅读 · 2022年4月26日

【ICML2021】基于卷积神经网络的隐私保护视频分类

专知会员服务

12+阅读 · 2021年9月10日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

53+阅读 · 2019年12月28日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

GAN生成式对抗网络

58+阅读 · 2018年12月11日

李沐等人：CNN图像分类Trick合集（附详细代码）

李沐等人：CNN图像分类Trick合集（附详细代码）

专知

12+阅读 · 2018年12月11日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

Proto-LeakNet: Towards Signal-Leak Aware Attribution in Synthetic Human Face Imagery

Arxiv

0+阅读 · 6月11日

A Deterministic Forensic Preprocessing Framework for Heterogeneous Network Datasets: Formal Foundations, Implementation, and Empirical Validation

Arxiv

0+阅读 · 6月10日

Design and Analysis of a Concatenated Code for Intersymbol Interference Wiretap Channels

Arxiv

0+阅读 · 6月8日

FusionVul: A Multimodal Feature Fusion Framework for Source Code Vulnerability Detection

Arxiv

0+阅读 · 6月7日

SHIELD-IDS: Structurally Heterogeneous Ensemble with Integrated Layered Defense for Intrusion Detection Systems

Arxiv

0+阅读 · 6月5日

Hybrid CNN-LSTM Framework for Intelligent Cyber Attack Detection and Prevention in U.S. Critical Digital Infrastructure: A Comparative Machine Learning Evaluation on CSE-CIC-IDS2018

Arxiv

0+阅读 · 6月4日

VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection

Arxiv

0+阅读 · 6月3日

Chernoff Information as a Privacy Constraint for Adversarial Classification and Membership Advantage

Arxiv

0+阅读 · 5月20日

Bridging the Cybersecurity Gap Between Web2 and Web3 - An Incident-Based Analysis of Organizational and Application-Level Security Failures

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

1+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

3+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

2+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

2+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

11+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

8+阅读 · 5月6日

《人工智能在衍生安全密级分类中的应用：美国国防部实践》

《人工智能在衍生安全密级分类中的应用：美国国防部实践》

专知会员服务

19+阅读 · 2025年11月10日

《数据安全技术数据分类分级规则》发布

《数据安全技术数据分类分级规则》发布

专知会员服务

32+阅读 · 2024年3月22日

网络安全行业深度报告：存量改造+数据安全，商密处于上升期

网络安全行业深度报告：存量改造+数据安全，商密处于上升期

专知会员服务

26+阅读 · 2023年1月29日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

28+阅读 · 2022年4月26日

【ICML2021】基于卷积神经网络的隐私保护视频分类

专知会员服务

12+阅读 · 2021年9月10日

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

机器学习隐私综述论文，An Overview of Privacy in Machine Learning

专知会员服务

81+阅读 · 2020年5月20日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

53+阅读 · 2019年12月28日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

GAN生成式对抗网络

58+阅读 · 2018年12月11日

李沐等人：CNN图像分类Trick合集（附详细代码）

李沐等人：CNN图像分类Trick合集（附详细代码）

专知

12+阅读 · 2018年12月11日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

经典论文复现 | 基于标注策略的实体和关系联合抽取

经典论文复现 | 基于标注策略的实体和关系联合抽取

PaperWeekly

13+阅读 · 2018年11月23日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

讲透RCNN, Fast-RCNN, Faster-RCNN，将CNN用于目标检测

数据挖掘入门与实战

18+阅读 · 2018年4月20日

相关论文

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

Proto-LeakNet: Towards Signal-Leak Aware Attribution in Synthetic Human Face Imagery

Arxiv

0+阅读 · 6月11日

A Deterministic Forensic Preprocessing Framework for Heterogeneous Network Datasets: Formal Foundations, Implementation, and Empirical Validation

Arxiv

0+阅读 · 6月10日

Design and Analysis of a Concatenated Code for Intersymbol Interference Wiretap Channels

Arxiv

0+阅读 · 6月8日

FusionVul: A Multimodal Feature Fusion Framework for Source Code Vulnerability Detection

Arxiv

0+阅读 · 6月7日

SHIELD-IDS: Structurally Heterogeneous Ensemble with Integrated Layered Defense for Intrusion Detection Systems

Arxiv

0+阅读 · 6月5日

Hybrid CNN-LSTM Framework for Intelligent Cyber Attack Detection and Prevention in U.S. Critical Digital Infrastructure: A Comparative Machine Learning Evaluation on CSE-CIC-IDS2018

Arxiv

0+阅读 · 6月4日

VulnAgent-R2: Evidence-Calibrated Multi-Agent Auditing for Repository-Level Vulnerability Detection

Arxiv

0+阅读 · 6月3日

Chernoff Information as a Privacy Constraint for Adversarial Classification and Membership Advantage

Arxiv

0+阅读 · 5月20日

Bridging the Cybersecurity Gap Between Web2 and Web3 - An Incident-Based Analysis of Organizational and Application-Level Security Failures

Arxiv

0+阅读 · 5月18日

相关基金

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员