Composer 2 is a specialized model designed for agentic software engineering. The model demonstrates strong long-term planning and coding intelligence while maintaining the ability to efficiently solve problems for interactive use. The model is trained in two phases: first, continued pretraining to improve the model's knowledge and latent coding ability, followed by large-scale reinforcement learning to improve end-to-end coding performance through stronger reasoning, accurate multi-step execution, and coherence on long-horizon realistic coding problems. We develop infrastructure to support training in the same Cursor harness that is used by the deployed model, with equivalent tools and structure, and use environments that match real problems closely. To measure the ability of the model on increasingly difficult tasks, we introduce a benchmark derived from real software engineering problems in large codebases including our own. Composer 2 is a frontier-level coding model and demonstrates a process for training strong domain-specialized models. On our CursorBench evaluations the model achieves a major improvement in accuracy compared to previous Composer models (61.3). On public benchmarks the model scores 61.7 on Terminal-Bench and 73.7 on SWE-bench Multilingual in our harness, comparable to state-of-the-art systems.


翻译:Composer 2 是一款专为智能体软件工程设计的专业化模型。该模型展现出强大的长期规划能力与编程智能,同时保持高效解决交互式问题的能力。模型训练分为两个阶段:首先通过持续预训练提升模型的知识储备与潜在编码能力,随后通过大规模强化学习增强端到端编码性能——具体通过强化推理能力、精确的多步骤执行以及长周期真实编码问题的连贯性来实现。我们开发了与部署模型相同的Cursor训练框架基础设施,配备等效工具与结构,并使用紧密贴合真实问题的环境。为衡量模型在处理日益复杂任务时的性能,我们引入了一个基于大规模代码库(包括自有代码库)中真实软件工程问题的基准测试。Composer 2 作为前沿级编码模型,展示了训练强领域专业化模型的可行流程。在CursorBench评估中,该模型相比前代Composer模型实现了显著精度提升(61.3)。在公开基准测试中,模型在Terminal-Bench和SWE-bench Multilingual(基于自有框架)上分别获得61.7分和73.7分,性能与当前最先进系统相当。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
27+阅读 · 2025年11月2日
2025年大模型2.0产业发展报告
专知会员服务
50+阅读 · 2025年4月13日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
最新《工业大模型应用报告》
专知会员服务
121+阅读 · 2024年4月5日
百川智能发布Baichuan2大模型,附技术报告
专知会员服务
49+阅读 · 2023年9月17日
《2023医疗机器人产业发展报告》,32页ppt
专知会员服务
53+阅读 · 2023年8月25日
分布式核心技术知识图谱,带走不谢
架构师之路
12+阅读 · 2019年9月23日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月27日
Arxiv
0+阅读 · 4月27日
Arxiv
0+阅读 · 3月26日
Arxiv
0+阅读 · 3月20日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
27+阅读 · 2025年11月2日
2025年大模型2.0产业发展报告
专知会员服务
50+阅读 · 2025年4月13日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
最新《工业大模型应用报告》
专知会员服务
121+阅读 · 2024年4月5日
百川智能发布Baichuan2大模型,附技术报告
专知会员服务
49+阅读 · 2023年9月17日
《2023医疗机器人产业发展报告》,32页ppt
专知会员服务
53+阅读 · 2023年8月25日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员