In this report, we introduce the IQuest-Coder-V1 series-(7B/14B/40B/40B-Loop), a new family of code large language models (LLMs). Moving beyond static code representations, we propose the code-flow multi-stage training paradigm, which captures the dynamic evolution of software logic through different phases of the pipeline. Our models are developed through the evolutionary pipeline, starting with the initial pre-training consisting of code facts, repository, and completion data. Following that, we implement a specialized mid-training stage that integrates reasoning and agentic trajectories in 32k-context and repository-scale in 128k-context to forge deep logical foundations. The models are then finalized with post-training of specialized coding capabilities, which is bifurcated into two specialized paths: the thinking path (utilizing reasoning-driven RL) and the instruct path (optimized for general assistance). IQuest-Coder-V1 achieves state-of-the-art performance among competitive models across critical dimensions of code intelligence: agentic software engineering, competitive programming, and complex tool use. To address deployment constraints, the IQuest-Coder-V1-Loop variant introduces a recurrent mechanism designed to optimize the trade-off between model capacity and deployment footprint, offering an architecturally enhanced path for efficacy-efficiency trade-off. We believe the release of the IQuest-Coder-V1 series, including the complete white-box chain of checkpoints from pre-training bases to the final thinking and instruction models, will advance research in autonomous code intelligence and real-world agentic systems.


翻译:在本报告中,我们介绍了IQuest-Coder-V1系列模型(7B/14B/40B/40B-Loop),这是一个新的代码大语言模型家族。我们超越了静态代码表示,提出了代码流多阶段训练范式,该范式通过流水线的不同阶段捕捉软件逻辑的动态演变。我们的模型通过进化流水线开发,从包含代码事实、仓库和补全数据的初始预训练开始。随后,我们实施了一个专业的中期训练阶段,该阶段在32k上下文长度中整合了推理与智能体轨迹,并在128k上下文长度中整合了仓库级数据,以锻造深厚的逻辑基础。模型最终通过针对专业编码能力的后训练完成,该后训练分为两个专业路径:思维路径(利用推理驱动的强化学习)和指令路径(针对通用辅助优化)。IQuest-Coder-V1在代码智能的关键维度上——包括智能体软件工程、竞技编程和复杂工具使用——均取得了优于竞争模型的顶尖性能。为应对部署限制,IQuest-Coder-V1-Loop变体引入了循环机制,旨在优化模型能力与部署开销之间的权衡,为效果与效率的权衡提供了一条架构增强的路径。我们相信,IQuest-Coder-V1系列的发布,包括从预训练基座到最终思维模型和指令模型的完整白盒检查点链,将推动自主代码智能和现实世界智能体系统的研究。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 1月30日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
最新内容
大语言模型平台在国防情报应用中的对比
专知会员服务
3+阅读 · 今天3:12
美海军“超配项目”
专知会员服务
4+阅读 · 今天2:13
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
10+阅读 · 4月21日
《军用自主人工智能系统的治理与安全》
专知会员服务
7+阅读 · 4月21日
《系统簇式多域作战规划范畴论框架》
专知会员服务
10+阅读 · 4月20日
相关VIP内容
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员