Exploring the Effectiveness of Abstract Syntax Tree Patterns for Algorithm Recognition - 专知论文

会员服务 ·

0

代码 · Performer · prototype · Automator · 知识 (knowledge) ·

Exploring the Effectiveness of Abstract Syntax Tree Patterns for Algorithm Recognition

翻译：探索抽象语法树模式在算法识别中的有效性

Denis Neumüller,Florian Sihler,Raphael Straub,Matthias Tichy

from arxiv, Accepted at the 4th International Conference on Code Quality (ICCQ) 2024

The automated recognition of algorithm implementations can support many software maintenance and re-engineering activities by providing knowledge about the concerns present in the code base. Moreover, recognizing inefficient algorithms like Bubble Sort and suggesting superior alternatives from a library can help in assessing and improving the quality of a system. Approaches from related work suffer from usability as well as scalability issues and their accuracy is not evaluated. In this paper, we investigate how well our approach based on the abstract syntax tree of a program performs for automatic algorithm recognition. To this end, we have implemented a prototype consisting of: A domain-specific language designed to capture the key features of an algorithm and used to express a search pattern on the abstract syntax tree, a matching algorithm to find these features, and an initial catalog of "ready to use" patterns. To create our search patterns we performed a web search using the algorithm name and described key features of the found reference implementations with our domain-specific language. We evaluate our prototype on a subset of the BigCloneEval benchmark containing algorithms like Fibonacci, Bubble Sort, and Binary Search. We achieve an average F1-score of 0.74 outperforming the large language model Codellama which attains 0.35. Additionally, we use multiple code clone detection tools as a baseline for comparison, achieving a recall of 0.62 while the best-performing tool reaches 0.20.

翻译：算法的自动识别可以通过提供代码库中关注点的知识来支持许多软件维护和重构活动。此外，识别低效算法（如冒泡排序）并从库中推荐更优替代方案，有助于评估和提升系统质量。现有相关方法存在可用性和可扩展性问题，且其准确性未得到评估。本文研究了基于程序抽象语法树的方法在自动算法识别中的表现。为此，我们实现了一个原型系统，包含：一种针对算法关键特征设计的领域特定语言，用于在抽象语法树上表达搜索模式；一种匹配算法以定位这些特征；以及一个初始的“即用型”模式库。通过搜索算法名称，我们利用该领域特定语言描述了参考实现的关键特征来构建搜索模式。我们在BigCloneEval基准的子集（包含斐波那契数列、冒泡排序和二分查找等算法）上评估了原型系统。我们取得了0.74的平均F1分数，优于大语言模型Codellama（0.35）。此外，我们使用多个代码克隆检测工具作为基线进行比较，在召回率达到0.62的同时，表现最佳的工具仅为0.20。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence

专知会员服务

36+阅读 · 2024年11月11日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

29+阅读 · 2024年8月3日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

面向算法选择的元学习研究综述

面向算法选择的元学习研究综述

专知会员服务

46+阅读 · 2023年2月11日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【经典书】算法C语言实现，Algorithms in C. 672页pdf

【经典书】算法C语言实现，Algorithms in C. 672页pdf

专知会员服务

82+阅读 · 2020年8月13日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【干货书】Python中的数据结构和算法，928页pdf

【干货书】Python中的数据结构和算法，928页pdf

专知

23+阅读 · 2022年9月25日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

人工智能学家

11+阅读 · 2019年2月15日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Experiments with Optimal Model Trees

Arxiv

0+阅读 · 6月23日

Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreter

Arxiv

0+阅读 · 6月15日

Language-Guided Abstraction for Visual Reasoning

Arxiv

0+阅读 · 6月11日

From Custom Logic to APIs: Understanding and Recommending API Replacement Refactorings

Arxiv

0+阅读 · 6月5日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

Arxiv

0+阅读 · 5月26日

Leveraging LLMs for Grammar Adaptation: A Study on Metamodel-Grammar Co-Evolution

Arxiv

0+阅读 · 5月20日

Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts

Arxiv

0+阅读 · 5月13日

Prospective Compression in Human Abstraction Learning

Arxiv

0+阅读 · 5月11日

Exact and Approximate Algorithms for Polytree Learning

Arxiv

0+阅读 · 5月5日

VIP会员

文章信息

相关主题

知识 (knowledge)

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

7+阅读 · 5月12日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence

【剑桥大学-算法手册】Advanced Algorithms, Artificial Intelligence

专知会员服务

36+阅读 · 2024年11月11日

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

【MIT博士论文】大规模机器学习算法：效率、估计误差及其拓展

专知会员服务

29+阅读 · 2024年8月3日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

面向算法选择的元学习研究综述

面向算法选择的元学习研究综述

专知会员服务

46+阅读 · 2023年2月11日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【经典书】算法C语言实现，Algorithms in C. 672页pdf

【经典书】算法C语言实现，Algorithms in C. 672页pdf

专知会员服务

82+阅读 · 2020年8月13日

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

【WWW2020-UIUC】自动主题分类法构建，Automated Topic Taxonomy Construction

专知会员服务

40+阅读 · 2020年3月22日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【干货书】Python中的数据结构和算法，928页pdf

【干货书】Python中的数据结构和算法，928页pdf

专知

23+阅读 · 2022年9月25日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

推荐：使用Python实现机器学习特征选择的4种方法（附代码）

数据分析

12+阅读 · 2019年4月14日

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

人工智能学家

11+阅读 · 2019年2月15日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Experiments with Optimal Model Trees

Arxiv

0+阅读 · 6月23日

Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreter

Arxiv

0+阅读 · 6月15日

Language-Guided Abstraction for Visual Reasoning

Arxiv

0+阅读 · 6月11日

From Custom Logic to APIs: Understanding and Recommending API Replacement Refactorings

Arxiv

0+阅读 · 6月5日

Local MDI+: Local Feature Importances for Tree-Based Models

Arxiv

0+阅读 · 5月27日

Why Prompt Optimization Works, and Why It Sometimes Doesn't: A Causal-Inspired Edit-Level Analysis

Arxiv

0+阅读 · 5月26日

Leveraging LLMs for Grammar Adaptation: A Study on Metamodel-Grammar Co-Evolution

Arxiv

0+阅读 · 5月20日

Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts

Arxiv

0+阅读 · 5月13日

Prospective Compression in Human Abstraction Learning

Arxiv

0+阅读 · 5月11日

Exact and Approximate Algorithms for Polytree Learning

Arxiv

0+阅读 · 5月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员