LLM-driven software engineering agents have become a central testbed for real-world language-model capability, yet their training remains limited by the availability of high-quality SWE tasks. Existing synthetic data methods typically create tasks through fixed mutation or bug-injection procedures, making the resulting distributions largely independent of the agent's own weaknesses and training progress. We introduce Socratic-SWE, a closed-loop self-evolution framework that reuses the agent's historical solving traces as a source of training signal. Rather than treating traces only as evidence for reward computation, Socratic-SWE distills them into structured agent skills that summarize recurring failures and effective repair patterns. These skills then guide the generation of targeted repair tasks in real repositories. Candidate tasks are checked through execution-based validation and scored with a solver-gradient alignment reward, so that the retained tasks are both verifiable and useful for improving the Solver. The updated Solver produces new traces, enabling the task curriculum to adapt over successive rounds. Across SWE-bench Verified, SWE-bench Lite, SWE-bench Pro, and Terminal-Bench 2.0, Socratic-SWE consistently improves over self-evolving baselines under the same compute budget, reaching 50.40% on SWE-bench Verified after three iterations. These results suggest that solving traces can serve as a scalable substrate for self-evolving SWE agents.


翻译:基于大语言模型的软件工程智能体已成为评估真实世界语言模型能力的核心测试平台,但其训练仍受限于高质量SWE任务的可用性。现有合成数据方法通常通过固定变异或缺陷注入程序创建任务,导致生成的数据分布与智能体自身弱点及训练进程基本无关。我们提出Socratic-SWE,一种闭环自演化框架,通过复用智能体的历史求解轨迹作为训练信号源。不同于仅将轨迹作为奖励计算的证据,Socratic-SWE将其提炼为结构化智能体技能,用以总结重复性失败与有效修复模式。这些技能进而指导在真实代码仓库中生成针对性修复任务。候选任务通过基于执行的验证检查,并以求解器梯度对齐奖励进行评分,从而保留既可通过验证又有助于改进求解器的任务。更新后的求解器生成新轨迹,使任务课程能够在连续迭代中自适应调整。在SWE-bench Verified、SWE-bench Lite、SWE-bench Pro及Terminal-Bench 2.0基准测试中,Socratic-SWE在相同计算预算下持续优于自演化基线方法,经三次迭代后在SWE-bench Verified上达到50.40%。这些结果表明,求解轨迹可作为自演化SWE智能体的可扩展训练基板。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
171+阅读 · 2023年2月21日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员