CATArena: Evaluating Evolutionary Capabilities of Code Agents via Iterative Tournaments - 专知论文

会员服务 ·

0

代码 · 代码智能 · 智能体 · 大语言模型 · 系统 ·

CATArena: Evaluating Evolutionary Capabilities of Code Agents via Iterative Tournaments

翻译：CATArena：通过迭代锦标赛评估代码智能体的进化能力

Lingyue Fu,Xin Ding,Linyue Pan,Yaoming Zhu,Shao Zhang,Lin Qiu,Weiwen Liu,Weinan Zhang,Xuezhi Cao,Xunliang Cai,Jiaxin Ding,Yong Yu

Current evaluation for Large Language Model (LLM) code agents predominantly focus on generating functional code in single-turn scenarios, which fails to evaluate the agent's capability for continuous code optimization and multi-turn iterative development. To bridge this gap, we introduce CATArena, a framework designed to evaluate the evolutionary capabilities of code agents via iterative tournaments. Agents engage in multi-turn tournaments and continuously refine their code through self-reflection and peer-learning based on comprehensive execution feedback. For evaluation, we propose a dual-metric system to decouple static generation proficiency from evolutionary potential. Extensive experiments reveal that an agent's evolutionary potential is not strictly correlated with its initial proficiency. Our analysis further reveals that current agents struggle to concurrently leverage both peer-learning and self-reflection for effective performance gains. Furthermore, the results validate CATArena's high extensibility and resistance to variance tasks, establishing it as a continuous and reliable standard for assessing the evolutionary capability of LLM code agents.

翻译：当前针对大语言模型（LLM）代码智能体的评估主要集中于单轮场景下生成功能性代码，这无法评估智能体在持续代码优化与多轮迭代开发中的能力。为弥补这一空白，我们提出了CATArena，一个通过迭代锦标赛评估代码智能体进化能力的框架。智能体参与多轮锦标赛，并基于全面的执行反馈，通过自我反思与同伴学习持续优化其代码。为进行评估，我们提出了一种双指标系统，以解耦静态生成熟练度与进化潜力。大量实验表明，智能体的进化潜力与其初始熟练度并非严格相关。我们的分析进一步揭示，当前智能体难以同时利用同伴学习与自我反思来有效提升性能。此外，实验结果验证了CATArena的高可扩展性与对变异任务的鲁棒性，使其成为评估LLM代码智能体进化能力的持续且可靠的标准。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

20+阅读 · 2月26日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

42+阅读 · 1月8日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

OpenAI 32页《智能体》指南，如何构建首个智能体系统

OpenAI 32页《智能体》指南，如何构建首个智能体系统

专知会员服务

50+阅读 · 2025年4月18日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

63+阅读 · 2025年3月25日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

DNA甲基化的继承和重编程的进化及其作用

国家自然科学基金

0+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation

Arxiv

0+阅读 · 3月16日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Arxiv

0+阅读 · 3月3日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Arxiv

0+阅读 · 2月11日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation

Arxiv

0+阅读 · 2月8日

ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas

Arxiv

0+阅读 · 2月4日

MapCoder-Lite: Distilling Multi-Agent Coding into a Single Small LLM

Arxiv

0+阅读 · 2月4日

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

大语言模型

最新内容

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 23分钟前

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 25分钟前

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

3+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

19+阅读 · 4月19日

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

26+阅读 · 2月27日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

20+阅读 · 2月26日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

42+阅读 · 1月8日

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

【AAAI2026】DEPO：面向大型语言模型智能体的双重效率偏好优化

专知会员服务

14+阅读 · 2025年11月24日

OpenAI 32页《智能体》指南，如何构建首个智能体系统

OpenAI 32页《智能体》指南，如何构建首个智能体系统

专知会员服务

50+阅读 · 2025年4月18日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

63+阅读 · 2025年3月25日

大模型如何迭代？北大等《大型语言模型自我进化》综述

大模型如何迭代？北大等《大型语言模型自我进化》综述

专知会员服务

60+阅读 · 2024年4月29日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

高效视频扩散模型：进展与挑战

军事通信系统与设备的技术演进综述

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

乌克兰前线的五项创新

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

Uber AI实验室：遗传算法PK随机梯度下降，欢迎来到深度神经进化时代！

论智

10+阅读 · 2017年12月19日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation

Arxiv

0+阅读 · 3月16日

CodeEvolve: an open source evolutionary coding agent for algorithmic discovery and optimization

Arxiv

0+阅读 · 3月12日

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Arxiv

0+阅读 · 3月3日

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Arxiv

0+阅读 · 2月12日

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Arxiv

0+阅读 · 2月11日

Rethinking the Value of Agent-Generated Tests for LLM-Based Software Engineering Agents

Arxiv

0+阅读 · 2月8日

MARTI-MARS$^2$: Scaling Multi-Agent Self-Search via Reinforcement Learning for Code Generation

Arxiv

0+阅读 · 2月8日

ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas

Arxiv

0+阅读 · 2月4日

MapCoder-Lite: Distilling Multi-Agent Coding into a Single Small LLM

Arxiv

0+阅读 · 2月4日

AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent

Arxiv

0+阅读 · 2月3日

相关基金

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

DNA甲基化的继承和重编程的进化及其作用

国家自然科学基金

0+阅读 · 2015年12月31日

进化算法行为分析及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员