Exploring Generalizable Automated Program Repair with Large Language Models - 专知论文

会员服务 ·

0

泛化 · 错误定位 · 自动程序修复 · 语言模型 · 大语言模型 ·

Exploring Generalizable Automated Program Repair with Large Language Models

翻译：探索基于大型语言模型的可泛化自动程序修复

Viola Campos,Ridwan Shariffdeen,Adrian Ulges,Yannic Noller

Automated Program Repair (APR) proposes bug fixes to aid developers in maintaining software. The state of the art in this domain focuses on LLMs, leveraging their strong capabilities to comprehend specifications in natural language and to generate program code. However, despite the APR community's research achievements and industry deployments, APR still cannot generalize broadly. In this work, we present an intensive empirical evaluation of LLMs' capabilities in APR. We evaluate a diverse set of 13 recent open and closed models. In particular, we explore language-agnostic repair by utilizing benchmarks for Java, JavaScript, Python, and PHP. Besides the generalization across languages and levels of patch complexity, we also investigate the effects of fault localization (FL). Our key results include: (1) Different LLMs tend to perform best for different languages, which makes it hard to develop cross-platform, single-LLM repair techniques. (2) Combining models by pooling repairs adds value with respect to uniquely fixed bugs, so a committee of expert models should be considered. (3) Under realistic assumptions of imperfect FL, we observe significant drops in accuracy from the usual practice of using perfect FL. Our insights will help develop reliable and generalizable APR techniques and evaluate them in realistic and fair environments.

翻译：自动程序修复（APR）通过提出错误修复方案来协助开发者维护软件。该领域的前沿研究聚焦于大型语言模型（LLM），利用其强大的自然语言规范理解与程序代码生成能力。然而，尽管APR领域已取得诸多研究成果并实现工业部署，现有方法仍难以实现广泛泛化。本研究对LLM在APR任务中的能力进行了系统性实证评估，涵盖了13种近期开闭源模型的多样化集合。我们通过Java、JavaScript、Python和PHP的基准测试集探索了语言无关的修复能力，除跨语言和补丁复杂度的泛化性外，还深入研究了错误定位（FL）的影响效应。主要发现包括：（1）不同LLM在不同编程语言中表现各异，这导致开发跨平台的单一LLM修复技术面临挑战；（2）通过聚合修复结果进行模型融合能有效提升独立修复错误的数量，应考虑构建专家模型委员会；（3）在错误定位不完善的现实假设下，相较于当前普遍采用的完美错误定位实践，修复准确率出现显著下降。本研究结论将为开发可靠且可泛化的APR技术，以及在现实公平环境中进行评估提供重要参考。

0

相关内容

基于大语言模型的智能体化软件问题解决：综述

基于大语言模型的智能体化软件问题解决：综述

专知会员服务

23+阅读 · 2025年12月31日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

【新书】大语言模型提示工程：构建基于大语言模型应用的艺术与科学

【新书】大语言模型提示工程：构建基于大语言模型应用的艺术与科学

专知会员服务

82+阅读 · 2024年11月30日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

大型语言模型自动程序修复的系统文献综述

大型语言模型自动程序修复的系统文献综述

专知会员服务

42+阅读 · 2024年5月5日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

77+阅读 · 2023年10月6日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

Arxiv

0+阅读 · 3月18日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

Large Language Models: A Survey

Arxiv

26+阅读 · 2024年2月9日

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

Arxiv

14+阅读 · 2024年1月11日

Explainability for Large Language Models: A Survey

Arxiv

18+阅读 · 2023年9月2日

A Survey on Large Language Model based Autonomous Agents

Arxiv

36+阅读 · 2023年8月22日

A Comprehensive Overview of Large Language Models

Arxiv

21+阅读 · 2023年7月12日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

Arxiv

66+阅读 · 2023年5月31日

VIP会员

文章信息

相关主题

自动程序修复

大语言模型

最新内容

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

1+阅读 · 22分钟前

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

1+阅读 · 32分钟前

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

1+阅读 · 35分钟前

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

2+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

2+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

8+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

10+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

16+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

7+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

相关VIP内容

基于大语言模型的智能体化软件问题解决：综述

基于大语言模型的智能体化软件问题解决：综述

专知会员服务

23+阅读 · 2025年12月31日

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

【新书】大语言模型提示工程：构建基于大语言模型应用的艺术与科学

【新书】大语言模型提示工程：构建基于大语言模型应用的艺术与科学

专知会员服务

82+阅读 · 2024年11月30日

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

人工智能驱动的自动程序修复与代码生成的技术与进展全面综述

专知会员服务

25+阅读 · 2024年11月15日

自动编程：大型语言模型及其他

自动编程：大型语言模型及其他

专知会员服务

36+阅读 · 2024年5月12日

大型语言模型自动程序修复的系统文献综述

大型语言模型自动程序修复的系统文献综述

专知会员服务

42+阅读 · 2024年5月5日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

77+阅读 · 2023年10月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

具身智能安全综述：风险、攻击与防御的多层分类框架

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理顶会EMNLP2018接受论文列表！

自然语言处理顶会EMNLP2018接受论文列表！

专知

87+阅读 · 2018年8月26日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

【下载】Python自然语言处理实战书籍和代码《Natural Language Processing in Action》

专知

41+阅读 · 2017年12月10日

相关论文

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

Arxiv

0+阅读 · 3月18日

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Arxiv

0+阅读 · 3月3日

Large Language Models: A Survey

Arxiv

26+阅读 · 2024年2月9日

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

Arxiv

14+阅读 · 2024年1月11日

Explainability for Large Language Models: A Survey

Arxiv

18+阅读 · 2023年9月2日

A Survey on Large Language Model based Autonomous Agents

Arxiv

36+阅读 · 2023年8月22日

A Comprehensive Overview of Large Language Models

Arxiv

21+阅读 · 2023年7月12日

A Survey on Multimodal Large Language Models

Arxiv

25+阅读 · 2023年6月23日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

Arxiv

66+阅读 · 2023年5月31日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员