Each year, software vulnerabilities are discovered, which pose significant risks of exploitation and system compromise. We present a convolutional neural network model that can successfully identify bugs in C code. We trained our model using two complementary datasets: a machine-labeled dataset created by Draper Labs using three static analyzers and the NIST SATE Juliet human-labeled dataset designed for testing static analyzers. In contrast with the work of Russell et al. on these datasets, we focus on C programs, enabling us to specialize and optimize our detection techniques for this language. After removing duplicates from the dataset, we tokenize the input into 91 token categories. The category values are converted to a binary vector to save memory. Our first convolution layer is chosen so that the entire encoding of the token is presented to the filter. We use two convolution and pooling layers followed by two fully connected layers to classify programs into either a common weakness enumeration category or as ``clean.'' We obtain higher recall than prior work by Russell et al. on this dataset when requiring high precision. We also demonstrate on a custom Linux kernel dataset that we are able to find real vulnerabilities in complex code with a low false-positive rate.


翻译:每年发现的软件漏洞都带来严重的利用风险和系统危害。本文提出一种能够成功识别C代码中缺陷的卷积神经网络模型。我们使用两个互补数据集训练模型:由Draper实验室使用三种静态分析器创建的机器标注数据集,以及专为测试静态分析器设计的NIST SATE Juliet人工标注数据集。与Russell等人基于这些数据集的研究不同,我们专注于C程序,从而能够针对该语言专门优化检测技术。在去除数据集中的重复项后,我们将输入标记化为91种标记类别。为节省内存,将类别值转换为二进制向量。我们选择的首个卷积层确保标记的完整编码能够呈现给滤波器。通过两个卷积层和池化层,以及两个全连接层,将程序分类为通用缺陷枚举类别或"清洁"状态。在要求高精度的前提下,我们在该数据集上获得了比Russell等人先前研究更高的召回率。通过在自定义Linux内核数据集上的实验,我们证明了该模型能够以较低误报率在复杂代码中发现真实漏洞。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《利用深度学习进行目标姿态估计》2023最新63页论文
专知会员服务
47+阅读 · 2023年8月29日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
基于深度学习的表面缺陷检测方法综述
专知会员服务
95+阅读 · 2020年5月31日
什么是深度学习的卷积?
论智
18+阅读 · 2018年8月14日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《美国战争部2027财年军事人员预算》
专知会员服务
0+阅读 · 14分钟前
伊朗战争中的电子战
专知会员服务
2+阅读 · 54分钟前
大语言模型平台在国防情报应用中的对比
专知会员服务
4+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
5+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员