Automated Classification of Source Code Changes Based on Metrics Clustering in the Software Development Process - 专知论文

会员服务 ·

0

度量 · 代码 · 软件 · 软件开发 · 映射 ·

Automated Classification of Source Code Changes Based on Metrics Clustering in the Software Development Process

翻译：基于度量聚类的软件开发过程中源代码变更自动分类方法

Evgenii Kniazev

from arxiv, This is an English translation of the author's Ph.D. dissertation abstract, originally defended in Russian at ITMO University (2009) under the supervision of Prof. A.A. Shalyto. The original research was co-authored with D.G. Shopyrin. Original available at https://is.ifmo.ru/disser/knyazev_autorefer.pdf

This paper presents an automated method for classifying source code changes during the software development process based on clustering of change metrics. The method consists of two steps: clustering of metric vectors computed for each code change, followed by expert mapping of the resulting clusters to predefined change classes. The distribution of changes into clusters is performed automatically, while the mapping of clusters to classes is carried out by an expert. Automation of the distribution step substantially reduces the time required for code change review. The k-means algorithm with a cosine similarity measure between metric vectors is used for clustering. Eleven source code metrics are employed, covering lines of code, cyclomatic complexity, file counts, interface changes, and structural changes. The method was validated on five software systems, including two open-source projects (Subversion and NHibernate), and demonstrated classification purity of P_C = 0.75 +/- 0.05 and entropy of E_C = 0.37 +/- 0.06 at a significance level of 0.05.

翻译：本文提出一种基于变更度量聚类的软件开发过程中源代码变更自动分类方法。该方法包含两个步骤：首先对每个代码变更计算得到的度量向量进行聚类，随后由专家将生成的聚类映射至预定义的变更类别。变更在聚类间的分配过程自动执行，而聚类到类别的映射则由专家完成。分配步骤的自动化显著减少了代码变更审查所需时间。聚类过程采用k-means算法，以度量向量间的余弦相似度作为度量标准。该方法采用十一项源代码度量指标，涵盖代码行数、圈复杂度、文件数量、接口变更及结构变更等方面。通过在五个软件系统（包括Subversion和NHibernate两个开源项目）上的验证，本方法在0.05显著性水平下实现了分类纯度P_C = 0.75 +/- 0.05与熵值E_C = 0.37 +/- 0.06。

0

相关内容

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

代码注释自动生成方法综述

专知会员服务

16+阅读 · 2021年1月23日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Adaptive Transfer Clustering: A Unified Framework

Arxiv

0+阅读 · 3月8日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Variable selection via knockoffs for clustered data

Arxiv

0+阅读 · 2月23日

Explaining AutoClustering: Uncovering Meta-Feature Contribution in AutoML for Clustering

Arxiv

0+阅读 · 2月20日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

ART: Adaptive Resampling-based Training for Imbalanced Classification

Arxiv

0+阅读 · 2月15日

Integrating Code Metrics into Automated Documentation Generation for Computational Notebooks

Arxiv

0+阅读 · 2月8日

Vector Quantization using Gaussian Variational Autoencoder

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

5+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

图上聚类怎么做？国防科大等最新《深度图聚类》综述，13页pdf阐述深度图聚类分类、挑战与应用综述

专知会员服务

43+阅读 · 2022年11月25日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

【ACL2022】解释生成的多尺度分布深度变分自编码器, Multi-Scale Distribution Deep Variational Autoencoder for Explanation Generation

专知会员服务

12+阅读 · 2022年3月24日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

代码注释自动生成方法综述

专知会员服务

16+阅读 · 2021年1月23日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

【AISTATS2020接受论文】变分自编码器和非线性独立分量分析:一个统一的框架（Variational Autoencoders and Nonlinear ICA: A Unifying Framework）

专知会员服务

28+阅读 · 2020年1月11日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

Federated Hierarchical Clustering with Automatic Selection of Optimal Cluster Numbers

Arxiv

0+阅读 · 3月13日

Adaptive Transfer Clustering: A Unified Framework

Arxiv

0+阅读 · 3月8日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Variable selection via knockoffs for clustered data

Arxiv

0+阅读 · 2月23日

Explaining AutoClustering: Uncovering Meta-Feature Contribution in AutoML for Clustering

Arxiv

0+阅读 · 2月20日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

ART: Adaptive Resampling-based Training for Imbalanced Classification

Arxiv

0+阅读 · 2月15日

Integrating Code Metrics into Automated Documentation Generation for Computational Notebooks

Arxiv

0+阅读 · 2月8日

Vector Quantization using Gaussian Variational Autoencoder

Arxiv

0+阅读 · 2月5日

相关基金

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

半监督进化文本聚类算法在动态多源文本分析上的研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员