Reliable Docker-based environment construction is a dominant bottleneck for scaling execution-grounded training and evaluation of software engineering agents. We introduce DockSmith, a specialized agentic Docker builder designed to address this challenge. DockSmith treats environment construction not only as a preprocessing step, but as a core agentic capability that exercises long-horizon tool use, dependency reasoning, and failure recovery, yielding supervision that transfers beyond Docker building itself. DockSmith is trained on large-scale, execution-grounded Docker-building trajectories produced by a SWE-Factory-style pipeline augmented with a loop-detection controller and a cross-task success memory. Training a 30B-A3B model on these trajectories achieves open-source state-of-the-art performance on Multi-Docker-Eval, with 39.72% Fail-to-Pass and 58.28% Commit Rate. Moreover, DockSmith improves out-of-distribution performance on SWE-bench Verified, SWE-bench Multilingual, and Terminal-Bench 2.0, demonstrating broader agentic benefits of environment construction.


翻译:基于Docker的可靠环境构建已成为扩展软件工程智能体执行驱动训练与评估的主要瓶颈。本文提出DockSmith——一种专门设计的智能Docker构建器,旨在解决这一挑战。DockSmith不仅将环境构建视为预处理步骤,更将其作为核心智能能力,通过长周期工具使用、依赖关系推理和故障恢复机制,生成可迁移至Docker构建之外任务的监督信号。该系统采用经循环检测控制器和跨任务成功记忆增强的SWE-Factory式流水线,在大规模执行驱动的Docker构建轨迹上进行训练。基于这些轨迹训练的30B-A3B模型在Multi-Docker-Eval基准上达到开源最优性能,Fail-to-Pass率为39.72%,提交率为58.28%。此外,DockSmith在SWE-bench Verified、SWE-bench Multilingual和Terminal-Bench 2.0等分布外任务上表现出性能提升,证明了环境构建能力对智能体泛化性能的广泛增益。

0
下载
关闭预览

相关内容

【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
70+阅读 · 2020年9月19日
通过Docker安装谷歌足球游戏环境
CreateAMind
12+阅读 · 2019年7月7日
Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架
AI研习社
35+阅读 · 2019年6月10日
浅谈 Kubernetes 在生产环境中的架构
DevOps时代
11+阅读 · 2019年5月8日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
6+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关VIP内容
【2020新书】使用Kubernetes开发高级平台,519页pdf
专知会员服务
70+阅读 · 2020年9月19日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员