A Code Smell Refactoring Approach using GNNs - 专知论文

会员服务 ·

0

代码 · 设计 · 数据集 · 软件 · 度量 ·

A Code Smell Refactoring Approach using GNNs

翻译：基于图神经网络的代码异味重构方法

HanYu Zhang,Tomoji Kishi

Code smell is a great challenge in software refactoring, which indicates latent design or implementation flaws that may degrade the software maintainability and evolution. Over the past decades, a variety of refactoring approaches have been proposed, which can be broadly classified into metrics-based, rule-based, and machine learning-based approaches. Recent years, deep learning-based approaches have also attracted widespread attention. However, existing techniques exhibit various limitations. Metrics- and rule-based approaches rely heavily on manually defined heuristics and thresholds, whereas deep learning-based approaches are often constrained by dataset availability and model design. In this study, we proposed a graph-based deep learning approach for code smell refactoring. Specifically, we designed two types of input graphs (class-level and method-level) and employed both graph classification and node classification tasks to address the refactoring of three representative code smells: long method, large class, and feature envy. In our experiment, we propose a semi-automated dataset generation approach that could generate a large-scale dataset with minimal manual effort. We implemented the proposed approach with three classical GNN (graph neural network) architectures: GCN, GraphSAGE, and GAT, and evaluated its performance against both traditional and state-of-the-art deep learning approaches. The results demonstrate that proposed approach achieves superior refactoring performance.

翻译：代码异味是软件重构中的重大挑战，它暗示着可能降低软件可维护性与演化性的潜在设计或实现缺陷。过去数十年来，研究者提出了多种重构方法，可大致分为基于度量、基于规则和基于机器学习的方法。近年来，基于深度学习的方法也引起了广泛关注。然而，现有技术存在诸多局限性：基于度量和规则的方法严重依赖人工定义的启发式规则与阈值，而基于深度学习的方法常受限于数据集可用性与模型设计。本研究提出了一种基于图的深度学习方法用于代码异味重构。具体而言，我们设计了两类输入图（类级别与方法级别），并采用图分类与节点分类任务来处理三种代表性代码异味的重构：长方法、大类与特性依恋。实验中，我们提出了一种半自动化数据集生成方法，能够以最小人工成本生成大规模数据集。我们使用三种经典图神经网络架构（GCN、GraphSAGE与GAT）实现了所提方法，并对比传统方法与前沿深度学习方法进行了性能评估。结果表明，所提方法实现了卓越的重构性能。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

专知会员服务

37+阅读 · 2023年7月22日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

专知会员服务

90+阅读 · 2022年10月3日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

基于深度神经网络的图像缺损修复方法综述

基于深度神经网络的图像缺损修复方法综述

专知会员服务

26+阅读 · 2021年12月18日

基于深度学习的图异常检测技术综述

基于深度学习的图异常检测技术综述

专知会员服务

86+阅读 · 2021年7月28日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

30+阅读 · 2021年4月11日

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

专知会员服务

68+阅读 · 2020年5月26日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

12+阅读 · 2022年10月11日

【Code】GraphSAGE 源码解析

【Code】GraphSAGE 源码解析

AINLP

31+阅读 · 2020年6月22日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

人工智能前沿讲习班

172+阅读 · 2019年3月6日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Memetic多目标时变优化的全基因代谢网络重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

Detecting UX smells in Visual Studio Code using LLMs

Arxiv

0+阅读 · 2月25日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

On the Variability of Source Code in Maven Package Rebuilds

Arxiv

0+阅读 · 2月22日

SACS: A Code Smell Dataset using Semi-automatic Generation Approach

Arxiv

0+阅读 · 2月17日

The Influence of Code Smells in Efferent Neighbors on Class Stability

Arxiv

0+阅读 · 2月16日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Rethinking the effects of data contamination in Code Intelligence

Arxiv

0+阅读 · 2月6日

Code Clone Detection via an AlphaFold-Inspired Framework

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

3+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

2+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

弹药异常检测《使用机器学习进行缺陷表征》最佳论文，MODSIM World 2023

专知会员服务

37+阅读 · 2023年7月22日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

GNN如何异常检测？首篇《图神经网络图异常检测》综述全面阐述GNN图异常检测方法体系

专知会员服务

90+阅读 · 2022年10月3日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

基于图注意力机制和Transformer的异常检测

基于图注意力机制和Transformer的异常检测

专知会员服务

62+阅读 · 2022年5月16日

基于深度神经网络的图像缺损修复方法综述

基于深度神经网络的图像缺损修复方法综述

专知会员服务

26+阅读 · 2021年12月18日

基于深度学习的图异常检测技术综述

基于深度学习的图异常检测技术综述

专知会员服务

86+阅读 · 2021年7月28日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

30+阅读 · 2021年4月11日

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

专知会员服务

68+阅读 · 2020年5月26日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

GNN如何异常检测？首篇《图神经网络异常检测》综述来啦

图与推荐

12+阅读 · 2022年10月11日

【Code】GraphSAGE 源码解析

【Code】GraphSAGE 源码解析

AINLP

31+阅读 · 2020年6月22日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

人工智能前沿讲习班

172+阅读 · 2019年3月6日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

一位ML工程师构建深度神经网络的实用技巧

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

相关论文

Detecting UX smells in Visual Studio Code using LLMs

Arxiv

0+阅读 · 2月25日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

On the Variability of Source Code in Maven Package Rebuilds

Arxiv

0+阅读 · 2月22日

SACS: A Code Smell Dataset using Semi-automatic Generation Approach

Arxiv

0+阅读 · 2月17日

The Influence of Code Smells in Efferent Neighbors on Class Stability

Arxiv

0+阅读 · 2月16日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

Rethinking Code Complexity Through the Lens of Large Language Models

Arxiv

0+阅读 · 2月8日

Rethinking the effects of data contamination in Code Intelligence

Arxiv

0+阅读 · 2月6日

Code Clone Detection via an AlphaFold-Inspired Framework

Arxiv

0+阅读 · 2月5日

相关基金

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于Memetic多目标时变优化的全基因代谢网络重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于压缩感知的信号重建快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员