The increasing adoption of Large Language Models (LLMs) in software engineering has sparked interest in their use for software vulnerability detection. However, the rapid development of this field has resulted in a fragmented research landscape, with diverse studies that are difficult to compare due to differences in, e.g., system designs and dataset usage. This fragmentation makes it difficult to obtain a clear overview of the state-of-the-art or compare and categorize studies meaningfully. In this work, we present a comprehensive systematic literature review (SLR) of LLM-based software vulnerability detection. We analyze 263 studies published between January 2020 and November 2025, categorizing them by task formulation, input representation, system architecture, and techniques. Further, we analyze the datasets used, including their characteristics, vulnerability coverage, and diversity. We present a fine-grained taxonomy of vulnerability detection approaches, identify key limitations, and outline actionable future research opportunities. By providing a structured overview of the field, this review improves transparency and serves as a practical guide for researchers and practitioners aiming to conduct more comparable and reproducible research. We publicly release all artifacts and maintain a living repository of LLM-based software vulnerability detection studies at https://github.com/hs-esslingen-it-security/Awesome-LLM4SVD.


翻译:大语言模型在软件工程领域的日益广泛应用,激发了其在软件漏洞检测方面的研究兴趣。然而,该领域的快速发展导致了研究格局的碎片化,众多研究因系统设计、数据集使用等方面的差异而难以进行有效比较。这种碎片化使得难以清晰把握该领域的前沿进展,也难以对研究进行有意义的比较与归类。本研究针对基于大语言模型的软件漏洞检测,进行了一项全面的系统性文献综述。我们分析了2020年1月至2025年11月期间发表的263项研究,并依据任务定义、输入表示、系统架构和技术方法对其进行分类。此外,我们分析了所使用的数据集,包括其特征、漏洞覆盖范围及多样性。我们提出了一个细粒度的漏洞检测方法分类体系,指出了当前研究的主要局限性,并规划了具有可操作性的未来研究方向。通过提供该领域的结构化概览,本综述提升了研究的透明度,并为旨在开展更具可比性和可复现性研究的研究人员与实践者提供了实用指南。我们已公开所有相关资源,并在 https://github.com/hs-esslingen-it-security/Awesome-LLM4SVD 维护一个关于基于大语言模型的软件漏洞检测研究的动态知识库。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《面向定义跨域的领域复杂性度量》 DARPA 和美陆军
专知会员服务
36+阅读 · 2024年2月25日
专知会员服务
22+阅读 · 2021年8月20日
专知会员服务
109+阅读 · 2020年8月28日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员