Training capable software engineering (SWE) agents demands large-scale, executable, and verifiable environments that provide dynamic feedback loops for iterative code editing, test execution, and solution refinement. However, existing open-source datasets remain limited in scale and repository diversity, while industrial solutions are opaque with unreleased infrastructure, creating a prohibitive barrier for most academic research groups. We present OpenSWE, the largest fully transparent framework for SWE agent training in Python, comprising 45,320 executable Docker environments spanning over 12.8k repositories, with all Dockerfiles, evaluation scripts, and infrastructure fully open-sourced for reproducibility. OpenSWE is built through a multi-agent synthesis pipeline deployed across a 64-node distributed cluster, automating repository exploration, Dockerfile construction, evaluation script generation, and iterative test analysis. Beyond scale, we propose a quality-centric filtering pipeline that characterizes the inherent difficulty of each environment, filtering out instances that are either unsolvable or insufficiently challenging and retaining only those that maximize learning efficiency. With $891K spent on environment construction and an additional $576K on trajectory sampling and difficulty-aware curation, the entire project represents a total investment of approximately $1.47 million, yielding about 13,000 curated trajectories from roughly 9,000 quality guaranteed environments. Extensive experiments validate OpenSWE's effectiveness: OpenSWE-32B and OpenSWE-72B achieve 62.4% and 66.0% on SWE-bench Verified, establishing SOTA among Qwen2.5 series. Moreover, SWE-focused training yields substantial out-of-domain improvements, including up to 12 points on mathematical reasoning and 5 points on science benchmarks, without degrading factual recall.


翻译:训练具备能力的软件工程(SWE)智能体需要大规模、可执行且可验证的环境,这些环境应能提供动态反馈循环,支持迭代式代码编辑、测试执行与解决方案优化。然而,现有的开源数据集在规模和代码库多样性方面仍然有限,而工业解决方案则因其基础设施未公开而缺乏透明度,这为大多数学术研究团队设置了难以逾越的障碍。我们提出了OpenSWE,这是目前规模最大、完全透明的Python软件工程智能体训练框架,包含45,320个可执行的Docker环境,覆盖超过12.8k个代码库,所有Dockerfile、评估脚本及基础设施均已完全开源以确保可复现性。OpenSWE通过部署在64节点分布式集群上的多智能体合成流水线构建而成,自动化实现了代码库探索、Dockerfile构建、评估脚本生成以及迭代式测试分析。除了规模优势,我们还提出了一种以质量为中心的过滤流水线,用于表征每个环境的内在难度,过滤掉那些无法解决或挑战性不足的实例,仅保留能最大化学习效率的环境。该项目在环境构建上投入了89.1万美元,并在轨迹采样与难度感知筛选上额外投入了57.6万美元,总投资约147万美元,最终从约9,000个质量有保证的环境中获得了约13,000条精选轨迹。大量实验验证了OpenSWE的有效性:OpenSWE-32B和OpenSWE-72B在SWE-bench Verified上分别达到62.4%和66.0%的准确率,在Qwen2.5系列模型中创下了SOTA记录。此外,专注于软件工程的训练还带来了显著的领域外性能提升,包括在数学推理任务上最高提升12个百分点,在科学基准测试上提升5个百分点,且未损害事实召回能力。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
38+阅读 · 2025年7月14日
《基于开源软件强化学习的计算机生成兵力》
专知会员服务
73+阅读 · 2024年1月21日
大模型软件工程
专知会员服务
89+阅读 · 2023年12月30日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
强化学习资源列表,Updating...
机器学习算法与Python学习
15+阅读 · 2018年12月30日
【推荐】自动特征工程开源框架
机器学习研究会
17+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员