Open-weight coding agents should hold a fundamental advantage over closed-source systems because they can specialize to private codebases, encoding repository-specific information directly in their weights. Yet the cost and complexity of training has kept this advantage theoretical until now. We present Soft-Verified Efficient Repository Agents (SERA), an efficient method for training coding agents that enables the rapid and cheap creation of agents specialized to private codebases. Using Soft Verified Generation (SVG), we generate thousands of trajectories from any code repository, without requiring unit tests. Beyond repository specialization, we apply SVG to a larger corpus of codebases, generating 200,000+ synthetic trajectories. Using only supervised finetuning (SFT), SERA achieves leading results among fully open-source (open data, method, code) models while matching the performance of open-weight models like Devstral-Small-2. Creating SERA models is 26x cheaper than reinforcement learning and 57x cheaper than previous synthetic data methods to reach equivalent performance. We use our dataset to provide detailed analysis of scaling laws, ablations, and confounding factors for training coding agents. Overall, we believe our work will greatly accelerate research on open coding agents and showcase the advantage of open-source models that can adapt to private codebases. We release SERA as the first model in Ai2's Open Coding Agents series, along with all our code, data, and Claude Code integration to support the research community.


翻译:开放权重编程智能体相较于闭源系统应具有根本优势,因为它们能够专精于私有代码库,将仓库特定信息直接编码到权重中。然而,高昂的训练成本与复杂性至今仍使这一优势停留在理论层面。我们提出软验证高效仓库代理(SERA),这是一种高效训练编程智能体的方法,能够快速且廉价地创建专精于私有代码库的智能体。利用软验证生成(SVG)技术,我们从任意代码仓库中生成数千条轨迹,且无需单元测试。除仓库专精外,我们将SVG应用于更大规模的代码库集合,生成超过20万条合成轨迹。仅使用监督微调(SFT),SERA就在完全开源(开放数据、方法、代码)模型中取得了领先结果,同时匹配了如Devstral-Small-2等开放权重模型的性能。创建SERA模型的成本比强化学习低26倍,比以往合成数据方法低57倍,即可达到同等性能。我们利用数据集对编程智能体训练的缩放定律、消融实验及混杂因素进行了详细分析。总体而言,我们相信这项工作将极大推动开放编程智能体的研究,并展示能够适应私有代码库的开源模型优势。我们将SERA作为Ai2开放编程智能体系列的首个模型发布,同时开源所有代码、数据及Claude Code集成,以支持研究社区。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
Sora技术详解及影响分析!
专知会员服务
70+阅读 · 2024年2月23日
佐治亚理工2020《数据库系统实现》课程,不可错过!
专知会员服务
24+阅读 · 2020年10月14日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 6月15日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员