Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases - 专知论文

会员服务 ·

0

代码 · 软件 · 工具 · 系统 · 构建 ·

Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases

翻译：孔子代码代理：面向真实世界代码库的可扩展代理脚手架

Sherman Wong,Zhenting Qi,Zhaodong Wang,Nathan Hu,Samuel Lin,Jun Ge,Erwin Gao,Wenlin Chen,Yilun Du,Minlan Yu,Ying Zhang

from arxiv, The latest version

Real-world software engineering tasks require coding agents that can operate on massive repositories, sustain long-horizon sessions, and reliably coordinate complex toolchains at test time. Existing research-grade coding agents offer transparency but struggle when scaled to heavier, production-level workloads, while production-grade systems achieve strong practical performance but provide limited extensibility, interpretability, and controllability. We introduce the Confucius Code Agent (CCA), a software engineering agent that can operate at large-scale codebases. CCA is built on top of the Confucius SDK, an agent development platform structured around three complementary perspectives: Agent Experience (AX), User Experience (UX), and Developer Experience (DX). The SDK supports a unified orchestrator with advanced context management for long-context reasoning, a persistent note-taking system for cross-session continual learning, and a modular extension system for reliable tool use. In addition, we introduce a meta-agent that automates the construction, evaluation, and refinement of agents through a build-test-improve cycle, enabling rapid agent development on new tasks and tool stacks. Instantiated on the Confucius SDK using the meta-agent, CCA demonstrates strong performance on real-world software engineering tasks. On SWE-Bench-Pro, CCA achieves a Resolve@1 of 59%, exceeding prior research baselines as well as commercial results, under identical repositories, model backends, and tool access.

翻译：真实世界的软件工程任务要求编码代理能够在海量代码库上运行、维持长时程会话，并在测试时可靠地协调复杂的工具链。现有的研究级编码代理虽具有透明性，但在扩展至更重负载的生产级任务时表现不佳；而生产级系统虽实现了强大的实际性能，却在可扩展性、可解释性与可控性方面存在局限。本文介绍孔子代码代理（CCA），一种能够在大型代码库上运行的软件工程代理。CCA构建于孔子软件开发套件之上，该代理开发平台围绕三个互补视角构建：代理体验（AX）、用户体验（UX）与开发者体验（DX）。该SDK支持一个具有高级上下文管理功能的统一编排器，用于长上下文推理；一个用于跨会话持续学习的持久化笔记系统；以及一个用于可靠工具使用的模块化扩展系统。此外，我们引入一个元代理，通过构建-测试-改进的循环自动完成代理的构建、评估与优化，从而支持在新任务与工具栈上快速开发代理。基于孔子SDK并通过元代理实例化的CCA在真实世界软件工程任务中展现出强大性能。在SWE-Bench-Pro基准测试中，在相同代码库、模型后端与工具访问条件下，CCA实现了59%的Resolve@1分数，超越了先前的研究基线及商业系统结果。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

26+阅读 · 4月6日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

20+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

13+阅读 · 2025年11月18日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

37+阅读 · 2024年2月6日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【2020新书】如何认真写好的代码和软件，318页pdf

【2020新书】如何认真写好的代码和软件，318页pdf

专知会员服务

66+阅读 · 2020年3月26日

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

专知

41+阅读 · 2019年12月15日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【实战】利用卷积自编码器实现图片降噪（代码开源）

【实战】利用卷积自编码器实现图片降噪（代码开源）

新智元

11+阅读 · 2017年7月17日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

Non-Collaborative User Simulators for Tool Agents

Arxiv

0+阅读 · 3月4日

Theory of Code Space: Do Code Agents Understand Software Architecture?

Arxiv

0+阅读 · 3月3日

Codified Context: Infrastructure for AI Agents in a Complex Codebase

Arxiv

0+阅读 · 2月24日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Understanding Codebase like a Professional! Human-AI Collaboration for Code Comprehension

Arxiv

0+阅读 · 2月12日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Arxiv

0+阅读 · 2月9日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 5分钟前

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 7分钟前

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

3+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

19+阅读 · 4月19日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

26+阅读 · 4月6日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

20+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

13+阅读 · 2025年11月18日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

37+阅读 · 2024年2月6日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

107+阅读 · 2020年6月21日

【2020新书】如何认真写好的代码和软件，318页pdf

【2020新书】如何认真写好的代码和软件，318页pdf

专知会员服务

66+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

高效视频扩散模型：进展与挑战

军事通信系统与设备的技术演进综述

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

乌克兰前线的五项创新

相关资讯

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

《深度学习之TensorFlow工程化项目实战》配套代码及数据集电子书资源

专知

41+阅读 · 2019年12月15日

基于 SonarQube 的增量代码扫描

基于 SonarQube 的增量代码扫描

DevOps时代

12+阅读 · 2019年7月18日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

【EMNLP2018干货】254 页《为NLP研究写出好代码》教程

专知

10+阅读 · 2018年11月2日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

【实战】利用卷积自编码器实现图片降噪（代码开源）

【实战】利用卷积自编码器实现图片降噪（代码开源）

新智元

11+阅读 · 2017年7月17日

相关论文

Non-Collaborative User Simulators for Tool Agents

Arxiv

0+阅读 · 3月4日

Theory of Code Space: Do Code Agents Understand Software Architecture?

Arxiv

0+阅读 · 3月3日

Codified Context: Infrastructure for AI Agents in a Complex Codebase

Arxiv

0+阅读 · 2月24日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Understanding Codebase like a Professional! Human-AI Collaboration for Code Comprehension

Arxiv

0+阅读 · 2月12日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Arxiv

0+阅读 · 2月9日

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Arxiv

0+阅读 · 2月4日

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Arxiv

0+阅读 · 2月3日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

量子码的构造

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员