Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...


翻译:近来,大型语言模型(LLM)能力的前沿已从单轮代码生成转向智能体式软件工程——一种模型能够自主导航、编辑和测试复杂代码仓库的范式。尽管后训练方法已成为代码智能体的事实标准,但**智能体中期训练**——即在模拟真实智能体工作流程的大规模数据上进行中期训练(MT)——尽管提供了比单纯依赖昂贵的强化学习更具可扩展性的路径来培养基础智能体行为,但由于巨大的资源需求,其探索仍严重不足。实现有效智能体中期训练的一个核心挑战在于静态训练数据与真实开发中动态、富含反馈的环境之间的分布不匹配。为解决此问题,我们提出了一项关于智能体中期训练的系统性研究,建立了大规模有效智能体开发的数据合成原则与训练方法。我们方法的核心是**原生智能体数据**——包含两种互补类型轨迹的监督数据:**上下文原生轨迹**,它保留了智能体所经历的完整信息流,提供了广泛的覆盖面和多样性;以及**环境原生轨迹**,从可执行仓库中收集,其观测源于实际的工具调用和测试执行,提供了深度和交互真实性。我们在`SWE-Bench Verified`上验证了模型的智能体能力。在使用对齐的基础模型和智能体框架的两种后训练设置下,我们证明了我们的方法优于先前开源的软件工程中期训练方案`Kimi-Dev`,同时使用的中期训练令牌数不到其一半(73.1B)。除了相对优势外,我们表现最佳的32B和72B模型分别实现了**56.1%**和**58.5%**的解决率,这...

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
OpenAI 32页《智能体》指南,如何构建首个智能体系统
专知会员服务
50+阅读 · 2025年4月18日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员