Can LLMs Find Bugs in Code? An Evaluation from Beginner Errors to Security Vulnerabilities in Python and C++ - 专知论文

会员服务 ·

0

代码 · 语言模型 · 软件 · 调试 · 情境 ·

Can LLMs Find Bugs in Code? An Evaluation from Beginner Errors to Security Vulnerabilities in Python and C++

翻译：大型语言模型能否发现代码缺陷？——从初学者错误到安全漏洞的Python与C++评估

Akshay Mhatre,Noujoud Nader,Patrick Diehl,Deepti Gupta

Large Language Models (LLMs) such as ChatGPT-4, Claude 3, and LLaMA 4 are increasingly embedded in software/application development, supporting tasks from code generation to debugging. Yet, their real-world effectiveness in detecting diverse software bugs, particularly complex, security-relevant vulnerabilities, remains underexplored. This study presents a systematic, empirical evaluation of these three leading LLMs using a benchmark of foundational programming errors, classic security flaws, and advanced, production-grade bugs in C++ and Python. The dataset integrates real code from SEED Labs, OpenSSL (via the Suresoft GLaDOS database), and PyBugHive, validated through local compilation and testing pipelines. A novel multi-stage, context-aware prompting protocol simulates realistic debugging scenarios, while a graded rubric measures detection accuracy, reasoning depth, and remediation quality. Our results show that all models excel at identifying syntactic and semantic issues in well-scoped code, making them promising for educational use and as first-pass reviewers in automated code auditing. Performance diminishes in scenarios involving complex security vulnerabilities and large-scale production code, with ChatGPT-4 and Claude 3 generally providing more nuanced contextual analyses than LLaMA 4. This highlights both the promise and the present constraints of LLMs in serving as reliable code analysis tools.

翻译：以ChatGPT-4、Claude 3和LLaMA 4为代表的大型语言模型正日益深入软件/应用开发流程，支撑着从代码生成到调试的各类任务。然而，这些模型在检测多样化软件缺陷（尤其是复杂的安全相关漏洞）方面的实际效能仍未得到充分探索。本研究通过集成基础编程错误、经典安全漏洞及生产级高级缺陷的基准测试，对上述三种主流大型语言模型进行了系统化实证评估。数据集融合了来自SEED Labs、OpenSSL（通过Suresoft GLaDOS数据库）及PyBugHive的真实代码，并经过本地编译与测试流水线验证。研究采用创新的多阶段情境感知提示协议模拟真实调试场景，同时通过分级评估标准量化检测准确率、推理深度与修复质量。实验结果表明：所有模型在识别边界清晰代码中的语法与语义问题时表现卓越，展现出在教育应用和自动化代码审计初筛场景中的潜力。但在涉及复杂安全漏洞与大规模生产代码的场景中，模型性能显著下降，其中ChatGPT-4与Claude 3通常能提供比LLaMA 4更精细的情境分析。这既揭示了大型语言模型作为可靠代码分析工具的发展前景，也凸显了其当前存在的局限性。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型安全开发者手册：构建安全的 AI 应用程序

大语言模型安全开发者手册：构建安全的 AI 应用程序

专知会员服务

35+阅读 · 2024年9月29日

【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

专知会员服务

38+阅读 · 2024年9月16日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

专知会员服务

66+阅读 · 2024年1月13日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Arxiv

0+阅读 · 3月17日

From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security

Arxiv

0+阅读 · 3月17日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision

Arxiv

1+阅读 · 3月2日

LLM Scalability Risk for Agentic-AI and Model Supply Chain Security

Arxiv

0+阅读 · 2月22日

Comment Traps: How Defective Commented-out Code Augment Defects in AI-Assisted Code Generation

Arxiv

0+阅读 · 2月18日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月17日

Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study

Arxiv

0+阅读 · 2月17日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

On the Difficulty of Selecting Few-Shot Examples for Effective LLM-based Vulnerability Detection

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

2+阅读 · 今天12:37

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

2+阅读 · 今天11:55

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

4+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

10+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

6+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

10+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

9+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

6+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

4+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

5+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

8+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

16+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

15+阅读 · 6月11日

相关VIP内容

大型语言模型系统中提示缺陷的分类学

大型语言模型系统中提示缺陷的分类学

专知会员服务

8+阅读 · 2025年9月19日

大语言模型安全开发者手册：构建安全的 AI 应用程序

大语言模型安全开发者手册：构建安全的 AI 应用程序

专知会员服务

35+阅读 · 2024年9月29日

【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

专知会员服务

38+阅读 · 2024年9月16日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

大模型如何可信？113页《TRUSTLLM：大型语言模型中的可信度》论文，60多位作者40机构联合撰写

专知会员服务

66+阅读 · 2024年1月13日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

乌克兰战场背后的新武器

相关资讯

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

GPT-4 让 Python 程序实现自修复 Bug，国外小哥将工具命名为“金刚狼”，并开源！

CSDN

11+阅读 · 2023年4月13日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

【干货】Python机器学习机器学习项目实战3——模型解释与结果分析（附代码）

专知

16+阅读 · 2018年5月24日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

相关论文

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Arxiv

0+阅读 · 3月17日

From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security

Arxiv

0+阅读 · 3月17日

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Arxiv

0+阅读 · 3月9日

Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision

Arxiv

1+阅读 · 3月2日

LLM Scalability Risk for Agentic-AI and Model Supply Chain Security

Arxiv

0+阅读 · 2月22日

Comment Traps: How Defective Commented-out Code Augment Defects in AI-Assisted Code Generation

Arxiv

0+阅读 · 2月18日

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Arxiv

0+阅读 · 2月17日

Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study

Arxiv

0+阅读 · 2月17日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

On the Difficulty of Selecting Few-Shot Examples for Effective LLM-based Vulnerability Detection

Arxiv

0+阅读 · 2月4日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员