PHP's dominance in web development is undermined by security challenges: static analysis lacks semantic depth, causing high false positives; dynamic analysis is computationally expensive; and automated vulnerability localization suffers from coarse granularity and imprecise context. Additionally, the absence of large-scale PHP vulnerability datasets and fragmented toolchains hinder real-world deployment. We present AutoVulnPHP, an end-to-end framework coupling two-stage vulnerability detection with fine-grained automated localization. SIFT-VulMiner (Structural Inference for Flaw Triage Vulnerability Miner) generates vulnerability hypotheses using AST structures enhanced with data flow. SAFE-VulMiner (Semantic Analysis for Flaw Evaluation Vulnerability Miner) verifies candidates through pretrained code encoder embeddings, eliminating false positives. ISAL (Incremental Sequence Analysis for Localization) pinpoints root causes via syntax-guided tracing, chain-of-thought LLM inference, and causal consistency checks to ensure precision. We contribute PHPVD, the first large-scale PHP vulnerability dataset with 26,614 files (5.2M LOC) across seven vulnerability types. On public benchmarks and PHPVD, AutoVulnPHP achieves 99.7% detection accuracy, 99.5% F1 score, and 81.0% localization rate. Deployed on real-world repositories, it discovered 429 previously unknown vulnerabilities, 351 assigned CVE identifiers, validating its practical effectiveness.


翻译:PHP在Web开发中的主导地位因其安全挑战而受到削弱:静态分析缺乏语义深度,导致高误报率;动态分析计算成本高昂;而自动化漏洞定位则存在粒度粗糙和上下文不精确的问题。此外,大规模PHP漏洞数据集的缺失以及碎片化的工具链阻碍了实际部署。我们提出了AutoVulnPHP,这是一个将两阶段漏洞检测与细粒度自动化定位相耦合的端到端框架。SIFT-VulMiner(基于结构推断的缺陷分类漏洞挖掘器)利用数据流增强的抽象语法树结构生成漏洞假设。SAFE-VulMiner(基于语义分析的缺陷评估漏洞挖掘器)通过预训练代码编码器嵌入来验证候选漏洞,从而消除误报。ISAL(基于增量序列分析的定位器)通过语法引导的追踪、思维链大语言模型推理以及因果一致性检查来精确定位根本原因,确保精确性。我们贡献了PHPVD,这是首个大规模PHP漏洞数据集,包含26,614个文件(520万行代码),涵盖七种漏洞类型。在公开基准测试和PHPVD上,AutoVulnPHP实现了99.7%的检测准确率、99.5%的F1分数以及81.0%的定位率。在实际代码库中部署后,它发现了429个先前未知的漏洞,其中351个被分配了CVE标识符,验证了其实际有效性。

0
下载
关闭预览

相关内容

PHP 是英文超级文本预处理语言(PHP:Hypertext Preprocessor)的缩写。PHP 是一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入 HTML 文档的脚本语言,语言的风格有类似于 C 语言,被广泛的运用。PHP 具有非常强大的功能,所有的 CGI 的功能 PHP 都能实现,而且支持几乎所有流行的数据库以及操作系统。
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
38+阅读 · 2025年7月14日
自动编程:大型语言模型及其他
专知会员服务
36+阅读 · 2024年5月12日
专知会员服务
14+阅读 · 2021年9月21日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
《AutoML:方法,系统,挑战》新书免费下载
新智元
25+阅读 · 2019年5月28日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美陆军设想无人系统司令部
专知会员服务
2+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
0+阅读 · 4月15日
《采用系统思维应对混合战争》125页
专知会员服务
4+阅读 · 4月15日
战争机器学习:数据生态系统构建(155页)
专知会员服务
7+阅读 · 4月15日
内省扩散语言模型
专知会员服务
6+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
4+阅读 · 4月14日
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员