SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training - 专知论文

会员服务 ·

0

软件 · 软件工程 · 后训练 · 智能体 · 系统 ·

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

翻译：SWE-Master：通过后训练释放软件工程智能体的潜力

Huatong Song,Lisheng Huang,Shuang Sun,Jinhao Jiang,Ran Le,Daixuan Cheng,Guoxin Chen,Yiwen Hu,Zongchao Chen,Wayne Xin Zhao,Yang Song,Tao Zhang,Ji-Rong Wen

In this technical report, we present SWE-Master, an open-source and fully reproducible post-training framework for building effective software engineering agents. SWE-Master systematically explores the complete agent development pipeline, including teacher-trajectory synthesis and data curation, long-horizon SFT, RL with real execution feedback, and inference framework design. Starting from an open-source base model with limited initial SWE capability, SWE-Master demonstrates how systematical optimization method can elicit strong long-horizon SWE task solving abilities. We evaluate SWE-Master on SWE-bench Verified, a standard benchmark for realistic software engineering tasks. Under identical experimental settings, our approach achieves a resolve rate of 61.4\% with Qwen2.5-Coder-32B, substantially outperforming existing open-source baselines. By further incorporating test-time scaling~(TTS) with LLM-based environment feedback, SWE-Master reaches 70.8\% at TTS@8, demonstrating a strong performance potential. SWE-Master provides a practical and transparent foundation for advancing reproducible research on software engineering agents. The code is available at https://github.com/RUCAIBox/SWE-Master.

翻译：在本技术报告中，我们介绍了SWE-Master——一个开源且完全可复现的后训练框架，用于构建高效的软件工程智能体。SWE-Master系统地探索了完整的智能体开发流程，包括教师轨迹合成与数据整理、长视野监督微调、基于真实执行反馈的强化学习以及推理框架设计。从一个初始软件工程能力有限的开源基础模型出发，SWE-Master展示了系统化的优化方法如何激发出强大的长视野软件工程任务解决能力。我们在SWE-bench Verified（一个面向现实软件工程任务的标准基准测试）上对SWE-Master进行了评估。在相同的实验设置下，我们的方法使用Qwen2.5-Coder-32B模型取得了61.4%的解决率，显著超越了现有的开源基线模型。通过进一步结合基于大语言模型环境反馈的测试时扩展技术，SWE-Master在TTS@8设置下达到了70.8%的解决率，展现出强劲的性能潜力。SWE-Master为推进软件工程智能体领域的可复现研究提供了一个实用且透明的基石。相关代码已发布于https://github.com/RUCAIBox/SWE-Master。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

KARL：基于强化学习的知识智能体

KARL：基于强化学习的知识智能体

专知会员服务

13+阅读 · 3月7日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

44+阅读 · 3月1日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

41+阅读 · 2025年12月28日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

哈工大《“DeepSeek技术前沿与应用》专题讲座，1小时快速掌握DeepSeek基本原理, 67页ppt

哈工大《“DeepSeek技术前沿与应用》专题讲座，1小时快速掌握DeepSeek基本原理, 67页ppt

专知会员服务

38+阅读 · 2025年4月2日

不可错过！专门为AI产品经理开设！Delft 大学最新《机器学习设计》课程，9节课带你落地ML到智能产品中

不可错过！专门为AI产品经理开设！Delft 大学最新《机器学习设计》课程，9节课带你落地ML到智能产品中

专知会员服务

27+阅读 · 2022年6月17日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【课程推荐】人工智能导论：Introduction to Articial Intelligence

【课程推荐】人工智能导论：Introduction to Articial Intelligence

专知会员服务

104+阅读 · 2019年12月20日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

周志华力荐：《南京大学人工智能本科专业教育培养体系》正式出台

周志华力荐：《南京大学人工智能本科专业教育培养体系》正式出台

新智元

12+阅读 · 2019年5月9日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知

52+阅读 · 2019年1月3日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 2月11日

Immersion in the GitHub Universe: Scaling Coding Agents to Mastery

Arxiv

0+阅读 · 2月10日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents

Arxiv

0+阅读 · 2月10日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

SWE-Universe: Scale Real-World Verifiable Environments to Millions

Arxiv

0+阅读 · 2月2日

TOM-SWE: User Mental Modeling For Software Engineering Agents

Arxiv

0+阅读 · 1月29日

daVinci-Dev: Agent-native Mid-training for Software Engineering

Arxiv

0+阅读 · 1月27日

Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation

Arxiv

0+阅读 · 1月23日

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

KARL：基于强化学习的知识智能体

KARL：基于强化学习的知识智能体

专知会员服务

13+阅读 · 3月7日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

44+阅读 · 3月1日

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

41+阅读 · 2025年12月28日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

哈工大《“DeepSeek技术前沿与应用》专题讲座，1小时快速掌握DeepSeek基本原理, 67页ppt

哈工大《“DeepSeek技术前沿与应用》专题讲座，1小时快速掌握DeepSeek基本原理, 67页ppt

专知会员服务

38+阅读 · 2025年4月2日

不可错过！专门为AI产品经理开设！Delft 大学最新《机器学习设计》课程，9节课带你落地ML到智能产品中

不可错过！专门为AI产品经理开设！Delft 大学最新《机器学习设计》课程，9节课带你落地ML到智能产品中

专知会员服务

27+阅读 · 2022年6月17日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

【课程推荐】人工智能导论：Introduction to Articial Intelligence

【课程推荐】人工智能导论：Introduction to Articial Intelligence

专知会员服务

104+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

清华大学《高级机器学习》课程

清华大学《高级机器学习》课程

专知

40+阅读 · 2020年7月21日

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

国科大UCAS《信息论与机器学习》课程，中国科学院自动化研究所胡包钢研究员

专知

17+阅读 · 2020年2月14日

周志华力荐：《南京大学人工智能本科专业教育培养体系》正式出台

周志华力荐：《南京大学人工智能本科专业教育培养体系》正式出台

新智元

12+阅读 · 2019年5月9日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知

52+阅读 · 2019年1月3日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

【下载】面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》

专知

27+阅读 · 2017年12月17日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 2月11日

Immersion in the GitHub Universe: Scaling Coding Agents to Mastery

Arxiv

0+阅读 · 2月10日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents

Arxiv

0+阅读 · 2月10日

SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development

Arxiv

0+阅读 · 2月6日

SWE-Universe: Scale Real-World Verifiable Environments to Millions

Arxiv

0+阅读 · 2月2日

TOM-SWE: User Mental Modeling For Software Engineering Agents

Arxiv

0+阅读 · 1月29日

daVinci-Dev: Agent-native Mid-training for Software Engineering

Arxiv

0+阅读 · 1月27日

Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation

Arxiv

0+阅读 · 1月23日

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

Arxiv

0+阅读 · 1月21日

相关基金

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

核反应动力学高效数值模拟软件集成开发与应用

国家自然科学基金

1+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

压电智能作动器的高保真完整非线性动力学建模和高精度多通道运动协同同步控制系统一体化优化设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员