This paper presents a novel methodology for enhancing Automated Program Repair (APR) through synthetic data generation utilizing Large Language Models (LLMs). Current APR systems are constrained by the limited availability of high-quality training data encompassing diverse bug types across multiple programming languages. The proposed approach addresses this limitation through a two-phase process: a synthetic sample generation followed by a rigorous quality assessment. Multiple state-of-the-art LLMs were employed to generate approximately 30,000 paired examples of buggy and fixed code across 12 programming languages and 13 bug categories. Subsequently, these samples underwent cross-model evaluation against five criteria: correctness, code quality, security, performance, and completeness. Experimental evaluation on the VulRepair test set dataset showed statistically significant improvements in Perfect Prediction rates, with the quality-filtered synthetic dataset achieving 17.18% (Top@1) and 23.00% (Top@5) compared to the baseline's 11.68% and 18.88% respectively, representing a 47% relative improvement in Top@1 and 22% in Top@5. The methodology was validated through rigorous statistical testing, including ANOVA and post-hoc Tukey's Honest Significant Difference analysis. Furthermore, the best-performing configurations surpassed existing systems despite using a less computationally intensive decoding strategy. This research establishes a self-bootstrapping paradigm in which LLMs generate and evaluate their own training data, suggesting promising directions for addressing data scarcity in similar software engineering tasks and advancing the development of robust, adaptable tools for automated code maintenance.


翻译:本文提出了一种新颖的方法,通过利用大型语言模型(LLMs)生成合成数据来增强自动程序修复(APR)。当前的APR系统受限于缺乏涵盖多种编程语言及多样化缺陷类型的高质量训练数据。所提出的方法通过两个阶段解决这一局限:首先是合成样本生成,随后是严格的质量评估。我们采用多种先进LLMs,在12种编程语言和13种缺陷类别中生成了约30,000对包含缺陷代码与修复代码的示例。随后,这些样本经历了跨模型评估,评估标准涵盖五项指标:正确性、代码质量、安全性、性能及完整性。在VulRepair测试集上的实验结果表明,完美预测率(Perfect Prediction)得到了显著提升:经过质量筛选的合成数据集在Top@1和Top@5指标上分别达到17.18%和23.00%,而基线方法的对应值分别为11.68%和18.88%,相对提升幅度为Top@1提高47%、Top@5提高22%。该方法通过严格的统计检验(包括方差分析(ANOVA)与事后Tukey诚实显著性差异分析)进行了验证。此外,尽管采用了计算强度较低的解码策略,最优配置仍超越了现有系统的性能。本研究确立了一种自举式范式,即由LLMs自主生成并评估其训练数据,为缓解类似软件工程任务中的数据稀缺问题以及推动鲁棒、可扩展的自动化代码维护工具的发展提供了有前景的方向。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
大型语言模型自动程序修复的系统文献综述
专知会员服务
43+阅读 · 2024年5月5日
大模型如何迭代?北大等《大型语言模型自我进化》综述
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员