Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance - 专知论文

会员服务 ·

0

代码 · Analysis · Agent · ReQuEST · AI ·

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

翻译：比较AI编码代理：基于拉取请求接受率的任务分层分析

Giovanni Pinna,Jingzhi Gong,David Williams,Federica Sarro

from arxiv, Accepted by MSR'26 Mining Challenge Track

The rapid adoption of AI-powered coding assistants is transforming software development practices, yet systematic comparisons of their effectiveness across different task types and over time remain limited. This paper presents an empirical study comparing five popular agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, and Claude Code), analyzing 7,156 pull requests (PRs) from the AIDev dataset. Temporal trend analysis reveals heterogeneous evolution patterns: Devin exhibits the only consistent positive trend in acceptance rate (+0.77% per week over 32 weeks), whereas other agents remain largely stable. Our analysis suggests that the PR task type is a dominant factor influencing acceptance rates: documentation tasks achieve 82.1% acceptance compared to 66.1% for new features - a 16 percentage point gap that exceeds typical inter-agent variance for most tasks. OpenAI Codex achieves consistently high acceptance rates across all nine task categories (59.6%-88.6%), with stratified Chi-square tests confirming statistically significant advantages over other agents in several task categories. However, no single agent performs best across all task types: Claude Code leads in documentation (92.3%) and features (72.6%), while Cursor excels in fix tasks (80.4%).

翻译：人工智能驱动的编码助手的快速采用正在改变软件开发实践，然而对其在不同任务类型及时间维度上有效性的系统性比较仍然有限。本文提出一项实证研究，比较了五种主流代理（OpenAI Codex、GitHub Copilot、Devin、Cursor与Claude Code），分析了来自AIDev数据集的7,156个拉取请求（PR）。时间趋势分析揭示了异质性演化模式：Devin是唯一在接受率上呈现持续正向趋势的代理（32周内每周增加0.77%），而其他代理基本保持稳定。我们的分析表明，PR任务类型是影响接受率的主导因素：文档任务的接受率为82.1%，而新功能任务为66.1%——这一16个百分点的差距超过多数任务中典型代理间差异。OpenAI Codex在所有九个任务类别中均保持高接受率（59.6%-88.6%），分层卡方检验确认其在多个任务类别中具有统计显著优势。然而，没有任何单一代理在所有任务类型中表现最佳：Claude Code在文档（92.3%）和功能（72.6%）任务上领先，而Cursor在修复任务中表现优异（80.4%）。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

50+阅读 · 2023年12月20日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

Python机器学习课程（代码与教程）

Python机器学习课程（代码与教程）

专知

37+阅读 · 2019年5月13日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

221页2019年版《人工智能Python实战代码》书册，手把手教你学习AI算法

221页2019年版《人工智能Python实战代码》书册，手把手教你学习AI算法

专知

11+阅读 · 2019年1月13日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

机器学习研究会

35+阅读 · 2017年10月25日

手把手教TensorFlow（附代码）

手把手教TensorFlow（附代码）

深度学习世界

15+阅读 · 2017年10月17日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Software Delegation Contracts: Measuring Reviewability in AI Coding-Agent Work

Arxiv

0+阅读 · 6月14日

Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework

Arxiv

0+阅读 · 6月13日

Understanding the Rejection of Fixes Generated by Agentic Pull Requests -- Insights from the AIDev Dataset

Arxiv

0+阅读 · 6月11日

Toward Instructions-as-Code: Understanding the Impact of Instruction Files on Agentic Pull Requests

Arxiv

0+阅读 · 6月11日

From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents

Arxiv

0+阅读 · 6月3日

First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope

Arxiv

0+阅读 · 5月29日

How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions

Arxiv

0+阅读 · 5月28日

Decoding the Configuration of AI Coding Agents: Insights from Claude Code Projects

Arxiv

0+阅读 · 5月25日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 5月24日

To What Extent Does Agent-generated Code Require Maintenance? An Empirical Study

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

50+阅读 · 2023年12月20日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

Python机器学习课程（代码与教程）

Python机器学习课程（代码与教程）

专知

37+阅读 · 2019年5月13日

十种深度学习推荐系统代码实现，持续更新中！！！

十种深度学习推荐系统代码实现，持续更新中！！！

专知

113+阅读 · 2019年4月25日

221页2019年版《人工智能Python实战代码》书册，手把手教你学习AI算法

221页2019年版《人工智能Python实战代码》书册，手把手教你学习AI算法

专知

11+阅读 · 2019年1月13日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

机器学习研究会

35+阅读 · 2017年10月25日

手把手教TensorFlow（附代码）

手把手教TensorFlow（附代码）

深度学习世界

15+阅读 · 2017年10月17日

相关论文

Software Delegation Contracts: Measuring Reviewability in AI Coding-Agent Work

Arxiv

0+阅读 · 6月14日

Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework

Arxiv

0+阅读 · 6月13日

Understanding the Rejection of Fixes Generated by Agentic Pull Requests -- Insights from the AIDev Dataset

Arxiv

0+阅读 · 6月11日

Toward Instructions-as-Code: Understanding the Impact of Instruction Files on Agentic Pull Requests

Arxiv

0+阅读 · 6月11日

From Prompt to Process: a Process Taxonomy and Comparative Assessment of Frameworks Supporting AI Software Development Agents

Arxiv

0+阅读 · 6月3日

First head-to-head comparison of agentic AI applied to the analysis of simulated data of the Einstein Telescope

Arxiv

0+阅读 · 5月29日

How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions

Arxiv

0+阅读 · 5月28日

Decoding the Configuration of AI Coding Agents: Insights from Claude Code Projects

Arxiv

0+阅读 · 5月25日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 5月24日

To What Extent Does Agent-generated Code Require Maintenance? An Empirical Study

Arxiv

0+阅读 · 5月7日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于比特置信度的低复杂度多进制LDPC码译码算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员