SERA: Soft-Verified Efficient Repository Agents - 专知论文

会员服务 ·

0

代码 · 编程 · 智能体 · 合成 · 重编程 ·

SERA: Soft-Verified Efficient Repository Agents

翻译：SERA：软验证高效仓库代理

Ethan Shen,Daniel Tormoen,Saurabh Shah,Ali Farhadi,Tim Dettmers

from arxiv, 21 main pages, 6 pages appendix

Open-weight coding agents should hold a fundamental advantage over closed-source systems because they can specialize to private codebases, encoding repository-specific information directly in their weights. Yet the cost and complexity of training has kept this advantage theoretical until now. We present Soft-Verified Efficient Repository Agents (SERA), an efficient method for training coding agents that enables the rapid and cheap creation of agents specialized to private codebases. Using Soft Verified Generation (SVG), we generate thousands of trajectories from any code repository, without requiring unit tests. Beyond repository specialization, we apply SVG to a larger corpus of codebases, generating 200,000+ synthetic trajectories. Using only supervised finetuning (SFT), SERA achieves leading results among fully open-source (open data, method, code) models while matching the performance of open-weight models like Devstral-Small-2. Creating SERA models is 26x cheaper than reinforcement learning and 57x cheaper than previous synthetic data methods to reach equivalent performance. We use our dataset to provide detailed analysis of scaling laws, ablations, and confounding factors for training coding agents. Overall, we believe our work will greatly accelerate research on open coding agents and showcase the advantage of open-source models that can adapt to private codebases. We release SERA as the first model in Ai2's Open Coding Agents series, along with all our code, data, and Claude Code integration to support the research community.

翻译：开放权重编程智能体相较于闭源系统应具有根本优势，因为它们能够专精于私有代码库，将仓库特定信息直接编码到权重中。然而，高昂的训练成本与复杂性至今仍使这一优势停留在理论层面。我们提出软验证高效仓库代理（SERA），这是一种高效训练编程智能体的方法，能够快速且廉价地创建专精于私有代码库的智能体。利用软验证生成（SVG）技术，我们从任意代码仓库中生成数千条轨迹，且无需单元测试。除仓库专精外，我们将SVG应用于更大规模的代码库集合，生成超过20万条合成轨迹。仅使用监督微调（SFT），SERA就在完全开源（开放数据、方法、代码）模型中取得了领先结果，同时匹配了如Devstral-Small-2等开放权重模型的性能。创建SERA模型的成本比强化学习低26倍，比以往合成数据方法低57倍，即可达到同等性能。我们利用数据集对编程智能体训练的缩放定律、消融实验及混杂因素进行了详细分析。总体而言，我们相信这项工作将极大推动开放编程智能体的研究，并展示能够适应私有代码库的开源模型优势。我们将SERA作为Ai2开放编程智能体系列的首个模型发布，同时开源所有代码、数据及Claude Code集成，以支持研究社区。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

《大规模供应链中断实时管理中智能决策支持系统的弹性集成》最新295页

《大规模供应链中断实时管理中智能决策支持系统的弹性集成》最新295页

专知会员服务

18+阅读 · 2025年5月9日

Meta Llama 3.1 405B 正式发布发布，Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

Meta Llama 3.1 405B 正式发布发布，Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

专知会员服务

19+阅读 · 2024年7月24日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

37+阅读 · 2024年2月29日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

免标记的SERS微阵列芯片对病原菌的高通量快速检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月15日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

FastContext: Training Efficient Repository Explorer for Coding Agents

Arxiv

0+阅读 · 6月12日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

RepoLaunch: Automating Build and Management of Code Repositories across Languages and Platforms

Arxiv

0+阅读 · 6月6日

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Arxiv

0+阅读 · 6月5日

Pull Requests as a Training Signal for Repo-Level Code Editing

Arxiv

0+阅读 · 5月28日

RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations

Arxiv

0+阅读 · 5月25日

Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

《大规模供应链中断实时管理中智能决策支持系统的弹性集成》最新295页

《大规模供应链中断实时管理中智能决策支持系统的弹性集成》最新295页

专知会员服务

18+阅读 · 2025年5月9日

Meta Llama 3.1 405B 正式发布发布，Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

Meta Llama 3.1 405B 正式发布发布，Llama成大模型顶流，扎克伯格掀论战：玩开源，时代变了

专知会员服务

19+阅读 · 2024年7月24日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

37+阅读 · 2024年2月29日

Sora技术详解及影响分析！

Sora技术详解及影响分析！

专知会员服务

70+阅读 · 2024年2月23日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

佐治亚理工2020《数据库系统实现》课程，不可错过！

佐治亚理工2020《数据库系统实现》课程，不可错过！

专知会员服务

24+阅读 · 2020年10月14日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月15日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

FastContext: Training Efficient Repository Explorer for Coding Agents

Arxiv

0+阅读 · 6月12日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

RepoLaunch: Automating Build and Management of Code Repositories across Languages and Platforms

Arxiv

0+阅读 · 6月6日

SWE-Explore: Benchmarking How Coding Agents Explore Repositories

Arxiv

0+阅读 · 6月5日

Pull Requests as a Training Signal for Repo-Level Code Editing

Arxiv

0+阅读 · 5月28日

RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations

Arxiv

0+阅读 · 5月25日

Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development

Arxiv

0+阅读 · 5月19日

相关基金

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

流密码可约性高效判别算法存在性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

免标记的SERS微阵列芯片对病原菌的高通量快速检测

国家自然科学基金

0+阅读 · 2015年12月31日

基于先验信息压缩感知SAR成像的信息理论限及实用算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员