Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey - 专知论文

会员服务 ·

0

软件 · 软件工程 · 分析 · 语言模型 · 综述 ·

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

翻译：基于大型语言模型的软件工程问题解决进展与前沿：一项全面综述

Caihua Li,Lianghong Guo,Yanlin Wang,Daya Guo,Wei Tao,Zhenyu Shan,Mingwei Liu,Jiachi Chen,Haoyu Song,Duyu Tang,Hongyu Zhang,Zibin Zheng

from arxiv, 26 pages, 4 figures, 5 tables

Issue resolution, a complex Software Engineering (SWE) task integral to real-world development, has emerged as a compelling challenge for artificial intelligence. The establishment of benchmarks like SWE-bench revealed this task as profoundly difficult for large language models, thereby significantly accelerating the evolution of autonomous coding agents. This paper presents a systematic survey of this emerging domain. We begin by examining data construction pipelines, covering automated collection and synthesis approaches. We then provide a comprehensive analysis of methodologies, spanning training-free frameworks with their modular components to training-based techniques, including supervised fine-tuning and reinforcement learning. Subsequently, we discuss critical analyses of data quality and agent behavior, alongside practical applications. Finally, we identify key challenges and outline promising directions for future research. An open-source repository is maintained at https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution to serve as a dynamic resource in this field.

翻译：问题解决作为现实世界开发中一项复杂的软件工程任务，已成为人工智能领域备受关注的挑战。SWE-bench等基准测试的建立表明，该任务对大型语言模型而言极具难度，从而显著加速了自主编码智能体的发展。本文对这一新兴领域进行了系统性综述。我们首先考察数据构建流程，涵盖自动化收集与合成方法。随后对方法论进行全面分析，包括基于免训练框架的模块化组件以及基于训练的技术，如监督微调与强化学习。接着，我们讨论数据质量与智能体行为的关键分析，以及实际应用场景。最后，我们指出该领域面临的核心挑战，并展望未来研究的潜在方向。本领域动态资源库持续维护于https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

基于大语言模型的智能体化软件问题解决：综述

基于大语言模型的智能体化软件问题解决：综述

专知会员服务

23+阅读 · 2025年12月31日

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

37+阅读 · 2025年10月4日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【新书】掌握大语言模型：高级技术、应用、尖端方法和顶尖LLMs

【新书】掌握大语言模型：高级技术、应用、尖端方法和顶尖LLMs

专知会员服务

85+阅读 · 2024年4月24日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

77+阅读 · 2023年10月6日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

371+阅读 · 2023年4月3日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

Advancing Software Quality: A Standards-Focused Review of LLM-Based Assurance Techniques

Arxiv

0+阅读 · 2月15日

Comprehensive Evaluation of Large Language Models on Software Engineering Tasks: A Multi-Task Benchmark

Arxiv

0+阅读 · 2月6日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large Language Models in Software Documentation and Modeling: A Literature Review and Findings

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Empirical and Sustainability Aspects of Software Engineering Research in the Era of Large Language Models: A Reflection

Arxiv

0+阅读 · 1月19日

Revisiting Software Engineering Education in the Era of Large Language Models: A Curriculum Adaptation and Academic Integrity Framework

Arxiv

0+阅读 · 1月18日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

2+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

3+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

9+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

5+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

4+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

3+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

7+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

6+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

9+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

11+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

6+阅读 · 7月25日

相关VIP内容

基于大语言模型的智能体化软件问题解决：综述

基于大语言模型的智能体化软件问题解决：综述

专知会员服务

23+阅读 · 2025年12月31日

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

37+阅读 · 2025年10月4日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【新书】掌握大语言模型：高级技术、应用、尖端方法和顶尖LLMs

【新书】掌握大语言模型：高级技术、应用、尖端方法和顶尖LLMs

专知会员服务

85+阅读 · 2024年4月24日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

大型语言模型在软件工程：调查与待解决的问题

大型语言模型在软件工程：调查与待解决的问题

专知会员服务

77+阅读 · 2023年10月6日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

104+阅读 · 2023年8月31日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

371+阅读 · 2023年4月3日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

【ICML2019】微软智能对话方法教程，130页PPT带你了解最新研究进展

专知

15+阅读 · 2019年6月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

NLPprogress.com-随时跟进自然语言处理研究最新进展，34个NLP任务的数据、模型、论文与代码

专知

12+阅读 · 2018年7月21日

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

主题模型Topic Model知识资料全集（基础/进阶/论文/综述/代码/专家，附PDF下载）

机器学习研究会

40+阅读 · 2017年11月16日

相关论文

Advancing Software Quality: A Standards-Focused Review of LLM-Based Assurance Techniques

Arxiv

0+阅读 · 2月15日

Comprehensive Evaluation of Large Language Models on Software Engineering Tasks: A Multi-Task Benchmark

Arxiv

0+阅读 · 2月6日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large Language Models in Software Documentation and Modeling: A Literature Review and Findings

Arxiv

0+阅读 · 2月4日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月19日

Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

Arxiv

0+阅读 · 1月19日

Empirical and Sustainability Aspects of Software Engineering Research in the Era of Large Language Models: A Reflection

Arxiv

0+阅读 · 1月19日

Revisiting Software Engineering Education in the Era of Large Language Models: A Curriculum Adaptation and Academic Integrity Framework

Arxiv

0+阅读 · 1月18日

LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities

Arxiv

0+阅读 · 1月14日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员