SPELL: Synthesis of Programmatic Edits using LLMs - 专知论文

会员服务 ·

0

代码 · 示例 · 语言模型 · 合成 · 工具 ·

SPELL: Synthesis of Programmatic Edits using LLMs

翻译：SPELL：基于大语言模型的程序化编辑合成

Daniel Ramos,Catarina Gamboa,Inês Lynce,Vasco Manquinho,Ruben Martins,Claire Le Goues

from arxiv, pre-print

Library migration is a common but error-prone task in software development. Developers may need to replace one library with another due to reasons like changing requirements or licensing changes. Migration typically entails updating and rewriting source code manually. While automated migration tools exist, most rely on mining examples from real-world projects that have already undergone similar migrations. However, these data are scarce, and collecting them for arbitrary pairs of libraries is difficult. Moreover, these migration tools often miss out on leveraging modern code transformation infrastructure. In this paper, we present a new approach to automated API migration that sidesteps the limitations described above. Instead of relying on existing migration data or using LLMs directly for transformation, we use LLMs to extract migration examples. Next, we use an Agent to generalize those examples to reusable transformation scripts in PolyglotPiranha, a modern code transformation tool. Our method distills latent migration knowledge from LLMs into structured, testable, and repeatable migration logic, without requiring preexisting corpora or manual engineering effort. Experimental results across Python libraries show that our system can generate diverse migration examples and synthesize transformation scripts that generalize to real-world codebases.

翻译：库迁移是软件开发中常见但易出错的任务。由于需求变更或许可证调整等原因，开发者可能需要将某个库替换为另一个库。迁移通常需要手动更新和重写源代码。虽然存在自动化迁移工具，但大多数依赖于从已完成类似迁移的实际项目中挖掘示例。然而，这类数据稀缺，且为任意库对收集数据十分困难。此外，现有迁移工具往往未能充分利用现代代码转换基础设施。本文提出一种新的自动化API迁移方法，规避了上述局限性。该方法不依赖现有迁移数据或直接使用大语言模型进行转换，而是利用大语言模型提取迁移示例，继而通过智能体将这些示例泛化为可复用的转换脚本（使用现代代码转换工具PolyglotPiranha实现）。我们的方法将大语言模型中的潜在迁移知识提炼为结构化、可测试且可重复的迁移逻辑，无需预先构建语料库或人工设计规则。在多个Python库上的实验结果表明，本系统能够生成多样化的迁移示例，并合成可泛化至实际代码库的转换脚本。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

38+阅读 · 2025年7月14日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

在大语言模型（LLM）、多模态大语言模型（MLLM）及其他领域中的模型融合：方法、理论、应用与机遇

在大语言模型（LLM）、多模态大语言模型（MLLM）及其他领域中的模型融合：方法、理论、应用与机遇

专知会员服务

63+阅读 · 2024年8月15日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf

【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf

专知会员服务

47+阅读 · 2023年4月19日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

MigrateLib: a tool for end-to-end Python library migration

Arxiv

0+阅读 · 2月23日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

SWE Context Bench: A Benchmark for Context Learning in Coding

Arxiv

0+阅读 · 2月9日

RuleFlow : Generating Reusable Program Optimizations with LLMs

Arxiv

0+阅读 · 2月6日

LLM-Based Repair of Static Nullability Errors

Arxiv

0+阅读 · 2月6日

Automated Customization of LLMs for Enterprise Code Repositories Using Semantic Scopes

Arxiv

0+阅读 · 2月5日

Fine-tuned LLM-based Code Migration Framework

Arxiv

0+阅读 · 2月4日

SVIP: Towards Verifiable Inference of Open-source Large Language Models

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

0+阅读 · 6月8日

CVPR 2026教程：统一多模态模型走向收敛之路

CVPR 2026教程：统一多模态模型走向收敛之路

专知会员服务

1+阅读 · 6月8日

《人工智能在网络防御中的机遇》

《人工智能在网络防御中的机遇》

专知会员服务

5+阅读 · 6月8日

认知战：定义与能力发展

认知战：定义与能力发展

专知会员服务

4+阅读 · 6月8日

2026年美国防部人工智能政策如何将国防人工智能转向速度、规模与“人工智能优先”作战

2026年美国防部人工智能政策如何将国防人工智能转向速度、规模与“人工智能优先”作战

专知会员服务

6+阅读 · 6月8日

《伊朗-以色列对抗中的算法化目标选定：技术现实、法律门槛与人类控制的边界》

《伊朗-以色列对抗中的算法化目标选定：技术现实、法律门槛与人类控制的边界》

专知会员服务

4+阅读 · 6月8日

《红外图像中掩埋目标检测的深度学习方法》2026最新报告

《红外图像中掩埋目标检测的深度学习方法》2026最新报告

专知会员服务

4+阅读 · 6月8日

《小部队领导者运用新技术训练与制胜指南》2026最新50页

《小部队领导者运用新技术训练与制胜指南》2026最新50页

专知会员服务

5+阅读 · 6月8日

乌军利用美国“黄蜂”无人机摧毁俄军后勤

乌军利用美国“黄蜂”无人机摧毁俄军后勤

专知会员服务

7+阅读 · 6月7日

《支持作战级人机协同智能的交互式OODA流程》

《支持作战级人机协同智能的交互式OODA流程》

专知会员服务

15+阅读 · 6月7日

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

专知会员服务

7+阅读 · 6月7日

大语言模型与物联网：大语言模型与物联网融合全面综述

大语言模型与物联网：大语言模型与物联网融合全面综述

专知会员服务

12+阅读 · 6月7日

【伯克利博士论文】基于动作分块策略的强化学习

【伯克利博士论文】基于动作分块策略的强化学习

专知会员服务

7+阅读 · 6月7日

Transformer增强强化学习：通信网络基础与应用综述

Transformer增强强化学习：通信网络基础与应用综述

专知会员服务

7+阅读 · 6月7日

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

8+阅读 · 6月6日

相关VIP内容

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

38+阅读 · 2025年7月14日

大语言模型表示工程的分类、机会与挑战

大语言模型表示工程的分类、机会与挑战

专知会员服务

22+阅读 · 2025年2月28日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

在大语言模型（LLM）、多模态大语言模型（MLLM）及其他领域中的模型融合：方法、理论、应用与机遇

在大语言模型（LLM）、多模态大语言模型（MLLM）及其他领域中的模型融合：方法、理论、应用与机遇

专知会员服务

63+阅读 · 2024年8月15日

《大型语言模型代码生成》综述

《大型语言模型代码生成》综述

专知会员服务

70+阅读 · 2024年6月4日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf

【慕尼黑大学博士论文】大型预训练语言模型的可比性、评估和基准测试，154页pdf

专知会员服务

47+阅读 · 2023年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026教程：统一多模态模型走向收敛之路

认知战：定义与能力发展

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

《人工智能在网络防御中的机遇》

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

MigrateLib: a tool for end-to-end Python library migration

Arxiv

0+阅读 · 2月23日

Examining LLMs Ability to Summarize Code Through Mutation-Analysis

Arxiv

0+阅读 · 2月19日

CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis

Arxiv

0+阅读 · 2月15日

LATA: A Tool for LLM-Assisted Translation Annotation

Arxiv

0+阅读 · 2月11日

SWE Context Bench: A Benchmark for Context Learning in Coding

Arxiv

0+阅读 · 2月9日

RuleFlow : Generating Reusable Program Optimizations with LLMs

Arxiv

0+阅读 · 2月6日

LLM-Based Repair of Static Nullability Errors

Arxiv

0+阅读 · 2月6日

Automated Customization of LLMs for Enterprise Code Repositories Using Semantic Scopes

Arxiv

0+阅读 · 2月5日

Fine-tuned LLM-based Code Migration Framework

Arxiv

0+阅读 · 2月4日

SVIP: Towards Verifiable Inference of Open-source Large Language Models

Arxiv

0+阅读 · 1月31日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员