超越严格规则：评估大语言模型在代码异味检测中的有效性 (Beyond Strict Rules: Assessing the Effectiveness of Large Language Models for Code Smell Detection) - 专知论文

会员服务 ·

0

代码 · 工具 · 有效性 · 软件 · 静态分析 ·

Beyond Strict Rules: Assessing the Effectiveness of Large Language Models for Code Smell Detection

翻译：超越严格规则：评估大语言模型在代码异味检测中的有效性

Saymon Souza,Amanda Santana,Eduardo Figueiredo,Igor Muzetti,João Eduardo Montandon,Lionel Briand

Code smells are symptoms of potential code quality problems that may affect software maintainability, thus increasing development costs and impacting software reliability. Large language models (LLMs) have shown remarkable capabilities for supporting various software engineering activities, but their use for detecting code smells remains underexplored. However, unlike the rigid rules of static analysis tools, LLMs can support flexible and adaptable detection strategies tailored to the unique properties of code smells. This paper evaluates the effectiveness of four LLMs -- DeepSeek-R1, GPT-5 mini, Llama-3.3, and Qwen2.5-Code -- for detecting nine code smells across 30 Java projects. For the empirical evaluation, we created a ground-truth dataset by asking 76 developers to manually inspect 268 code-smell candidates. Our results indicate that LLMs perform strongly for structurally straightforward smells, such as Large Class and Long Method. However, we also observed that different LLMs and tools fare better for distinct code smells. We then propose and evaluate a detection strategy that combines LLMs and static analysis tools. The proposed strategy outperforms LLMs and tools in five out of nine code smells in terms of F1-Score. However, it also generates more false positives for complex smells. Therefore, we conclude that the optimal strategy depends on whether Recall or Precision is the main priority for code smell detection.

翻译：代码异味是潜在代码质量问题的征兆，可能影响软件可维护性，从而增加开发成本并损害软件可靠性。大语言模型（LLMs）在支持各类软件工程活动方面已展现出卓越能力，但其在代码异味检测中的应用仍待深入探索。与静态分析工具的刚性规则不同，LLMs能够支持灵活且可适配的检测策略，以适应代码异味的独特属性。本文评估了四种LLMs——DeepSeek-R1、GPT-5 mini、Llama-3.3和Qwen2.5-Code——在30个Java项目中检测九种代码异味的有效性。为进行实证评估，我们邀请76名开发者人工检查268个候选代码异味样本，构建了基准数据集。结果表明，LLMs在结构直观的异味（如Large Class和Long Method）检测中表现优异。然而，我们也发现不同LLMs和工具对特定代码异味的检测效果存在差异。在此基础上，我们提出并评估了一种结合LLMs与静态分析工具的检测策略。该策略在九种异味中的五种上，其F1分数超越了单一LLMs或工具。但该策略对复杂异味会产生更多误报。因此，我们得出结论：最优检测策略的选择取决于代码异味检测中是以召回率还是精确度作为首要优化目标。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月19日

A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code

Arxiv

0+阅读 · 1月16日

A Decompilation-Driven Framework for Malware Detection with Large Language Models

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

负责任的大型语言模型的综述：固有风险、恶意使用与缓解策略

专知会员服务

15+阅读 · 2025年1月17日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

68+阅读 · 2024年6月4日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

异常检测论文大列表：方法、应用、综述

异常检测论文大列表：方法、应用、综述

专知

126+阅读 · 2019年7月15日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

相关论文

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

Improving the Robustness of Large Language Models for Code Tasks via Fine-tuning with Perturbed Data

Arxiv

0+阅读 · 2月11日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 2月6日

Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing

Arxiv

0+阅读 · 1月30日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

On LLMs' Internal Representation of Code Correctness

Arxiv

0+阅读 · 1月21日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月19日

A Causal Perspective on Measuring, Explaining and Mitigating Smells in LLM-Generated Code

Arxiv

0+阅读 · 1月16日

A Decompilation-Driven Framework for Malware Detection with Large Language Models

Arxiv

0+阅读 · 1月14日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的环境绩效评价理论、方法及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员