AI编程助手对比：基于任务分层的Pull Request接受率分析 (Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance) - 专知论文

会员服务 ·

0

分析 · 编程 · AI · 分层 · ReQuEST ·

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

翻译：AI编程助手对比：基于任务分层的Pull Request接受率分析

Giovanni Pinna,Jingzhi Gong,David Williams,Federica Sarro

from arxiv, Accepted by MSR'26 Mining Challenge Track

The rapid adoption of AI-powered coding assistants is transforming software development practices, yet systematic comparisons of their effectiveness across different task types and over time remain limited. This paper presents an empirical study comparing five popular agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, and Claude Code), analyzing 7,156 pull requests (PRs) from the AIDev dataset. Temporal trend analysis reveals heterogeneous evolution patterns: Devin exhibits the only consistent positive trend in acceptance rate (+0.77% per week over 32 weeks), whereas other agents remain largely stable. Our analysis suggests that the PR task type is a dominant factor influencing acceptance rates: documentation tasks achieve 82.1% acceptance compared to 66.1% for new features - a 16 percentage point gap that exceeds typical inter-agent variance for most tasks. OpenAI Codex achieves consistently high acceptance rates across all nine task categories (59.6%-88.6%), with stratified Chi-square tests confirming statistically significant advantages over other agents in several task categories. However, no single agent performs best across all task types: Claude Code leads in documentation (92.3%) and features (72.6%), while Cursor excels in fix tasks (80.4%).

翻译：人工智能驱动的编程助手正迅速普及，深刻改变着软件开发实践，然而针对不同任务类型及随时间推移的系统性效能对比研究仍显不足。本文通过实证研究比较了五种主流AI编程助手（OpenAI Codex、GitHub Copilot、Devin、Cursor和Claude Code），基于AIDev数据集分析了7,156个Pull Request（PR）。时序趋势分析揭示了异质性的演化模式：Devin是唯一呈现持续正向接受率趋势的助手（32周内每周+0.77%），而其他助手则基本保持稳定。我们的分析表明，PR任务类型是影响接受率的主导因素：文档类任务接受率达82.1%，而新功能类任务仅为66.1%——这一16个百分点的差距超过了多数任务中典型的助手间差异。OpenAI Codex在所有九类任务中均保持较高接受率（59.6%-88.6%），分层卡方检验证实其在多个任务类别中具有统计学显著优势。然而，没有单一助手能在所有任务类型中表现最优：Claude Code在文档任务（92.3%）和功能开发（72.6%）中领先，而Cursor在修复任务（80.4%）中表现突出。

0

相关内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

20+阅读 · 2025年12月31日

【新书】《学习AI辅助的Python编程（第2版）》

【新书】《学习AI辅助的Python编程（第2版）》

专知会员服务

66+阅读 · 2024年10月22日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

67+阅读 · 2024年8月24日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

37+阅读 · 2024年2月6日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

142+阅读 · 2024年1月1日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

49+阅读 · 2023年12月20日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

如何搞好AI研究？哈佛大学Pranav教授《AI研究经验》课程，实战做AI模型写论文

如何搞好AI研究？哈佛大学Pranav教授《AI研究经验》课程，实战做AI模型写论文

专知会员服务

35+阅读 · 2023年1月3日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

211+阅读 · 2019年12月15日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

17+阅读 · 2019年5月4日

推荐｜Python库中Top10 的AI项目（星级3k+)，赶紧收藏！

推荐｜Python库中Top10 的AI项目（星级3k+)，赶紧收藏！

全球人工智能

10+阅读 · 2018年1月16日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

【下载】面向机器智能的TensorFlow实践书籍和代码

【下载】面向机器智能的TensorFlow实践书籍和代码

专知

20+阅读 · 2017年12月25日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

机器学习研究会

35+阅读 · 2017年10月25日

手把手教TensorFlow（附代码）

手把手教TensorFlow（附代码）

深度学习世界

15+阅读 · 2017年10月17日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Arxiv

0+阅读 · 2月19日

Configuring Agentic AI Coding Tools: An Exploratory Study

Arxiv

0+阅读 · 2月16日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

Beyond the Commit: Developer Perspectives on Productivity with AI Coding Assistants

Arxiv

0+阅读 · 2月3日

Predicting Developer Acceptance of AI-Generated Code Suggestions

Arxiv

0+阅读 · 1月29日

AI-Assisted Programming Decreases the Productivity of Experienced Developers by Increasing the Technical Debt and Maintenance Burden

Arxiv

0+阅读 · 1月28日

On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents

Arxiv

0+阅读 · 1月28日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 1月28日

Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems

Arxiv

0+阅读 · 1月24日

Developer Needs and Feasible Features for AI Assistants in IDEs

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

相关VIP内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

20+阅读 · 2025年12月31日

【新书】《学习AI辅助的Python编程（第2版）》

【新书】《学习AI辅助的Python编程（第2版）》

专知会员服务

66+阅读 · 2024年10月22日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

67+阅读 · 2024年8月24日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

37+阅读 · 2024年2月6日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

142+阅读 · 2024年1月1日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

49+阅读 · 2023年12月20日

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

【ChatGPT系列报告】不同大语言模型产品操作性能及进阶应用比较，17页pdf

专知会员服务

99+阅读 · 2023年6月19日

如何搞好AI研究？哈佛大学Pranav教授《AI研究经验》课程，实战做AI模型写论文

如何搞好AI研究？哈佛大学Pranav教授《AI研究经验》课程，实战做AI模型写论文

专知会员服务

35+阅读 · 2023年1月3日

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

【电子书推荐】《深度学习之TensorFlow工程化项目实战》电子书以及配套代码及数据集资源，附787页pdf

专知会员服务

211+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

17+阅读 · 2019年5月4日

推荐｜Python库中Top10 的AI项目（星级3k+)，赶紧收藏！

推荐｜Python库中Top10 的AI项目（星级3k+)，赶紧收藏！

全球人工智能

10+阅读 · 2018年1月16日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

【下载】面向机器智能的TensorFlow实践书籍和代码

【下载】面向机器智能的TensorFlow实践书籍和代码

专知

20+阅读 · 2017年12月25日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

文本分类实战: 机器学习vs深度学习算法对比（附代码）

文本分类实战: 机器学习vs深度学习算法对比（附代码）

机器学习研究会

35+阅读 · 2017年10月25日

手把手教TensorFlow（附代码）

手把手教TensorFlow（附代码）

深度学习世界

15+阅读 · 2017年10月17日

相关论文

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Arxiv

0+阅读 · 2月19日

Configuring Agentic AI Coding Tools: An Exploratory Study

Arxiv

0+阅读 · 2月16日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

Beyond the Commit: Developer Perspectives on Productivity with AI Coding Assistants

Arxiv

0+阅读 · 2月3日

Predicting Developer Acceptance of AI-Generated Code Suggestions

Arxiv

0+阅读 · 1月29日

AI-Assisted Programming Decreases the Productivity of Experienced Developers by Increasing the Technical Debt and Maintenance Burden

Arxiv

0+阅读 · 1月28日

On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents

Arxiv

0+阅读 · 1月28日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 1月28日

Prompt Injection Attacks on Agentic Coding Assistants: A Systematic Analysis of Vulnerabilities in Skills, Tools, and Protocol Ecosystems

Arxiv

0+阅读 · 1月24日

Developer Needs and Feasible Features for AI Assistants in IDEs

Arxiv

0+阅读 · 1月15日

相关基金

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员