Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub - 专知论文

会员服务 ·

0

模式识别 · 编程 · AI · 实证研究 · 代码 ·

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

翻译：AI编程代理在何处失败？GitHub中代理式拉取请求失败的实证研究

Ramtin Ehsani,Sakshi Pathak,Shriya Rawal,Abdullah Al Mujahid,Mia Mohammad Imran,Preetha Chatterjee

from arxiv, Accepted at International Mining Software Repositories Conference (MSR 2026)

AI coding agents are now submitting pull requests (PRs) to software projects, acting not just as assistants but as autonomous contributors. As these agentic contributions are rapidly increasing across real repositories, little is known about how they behave in practice and why many of them fail to be merged. In this paper, we conduct a large-scale study of 33k agent-authored PRs made by five coding agents across GitHub. (RQ1) We first quantitatively characterize merged and not-merged PRs along four broad dimensions: 1) merge outcomes across task types, 2) code changes, 3) CI build results, and 4) review dynamics. We observe that tasks related to documentation, CI, and build update achieve the highest merge success, whereas performance and bug-fix tasks perform the worst. Not-merged PRs tend to involve larger code changes, touch more files, and often do not pass the project's CI/CD pipeline validation. (RQ2) To further investigate why some agentic PRs are not merged, we qualitatively analyze 600 PRs to derive a hierarchical taxonomy of rejection patterns. This analysis complements the quantitative findings in RQ1 by uncovering rejection reasons not captured by quantitative metrics, including lack of meaningful reviewer engagement, duplicate PRs, unwanted feature implementations, and agent misalignment. Together, our findings highlight key socio-technical and human-AI collaboration factors that are critical to improving the success of future agentic workflows.

翻译：AI编程代理现正向软件项目提交拉取请求（PRs），其角色已超越辅助工具而成为自主贡献者。随着此类代理式贡献在实际代码库中快速增长，人们对其实际行为模式及多数PR未能成功合并的原因仍知之甚少。本文通过对GitHub上五种编程代理创建的3.3万个代理生成PR进行大规模实证研究。（研究问题一）我们首先从四个宏观维度对已合并与未合并PR进行量化表征：1）跨任务类型的合并结果，2）代码变更特征，3）持续集成构建结果，4）评审动态。研究发现：文档更新、CI配置与构建优化类任务的合并成功率最高，而性能优化与缺陷修复类任务表现最差。未合并PR往往涉及更大规模的代码变更，波及更多文件，且通常无法通过项目的CI/CD流水线验证。（研究问题二）为深入探究部分代理式PR未获合并的原因，我们对600个PR进行质性分析，构建了多层次拒收模式分类体系。该分析通过揭示量化指标未能捕捉的拒收原因（包括缺乏实质性评审互动、重复PR、非预期功能实现及代理行为失准），对研究问题一的量化发现形成有效补充。综合研究表明，社会技术因素与人机协作机制是提升未来代理式工作流成功率的关键要素。

0

相关内容

模式识别

模式识别 Pattern Recognition

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

Al Agent：AI时代的软件革命

Al Agent：AI时代的软件革命

专知会员服务

47+阅读 · 2025年5月13日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

32+阅读 · 2025年3月27日

中国AI Agent行业研究报告（二）

中国AI Agent行业研究报告（二）

专知会员服务

48+阅读 · 2025年3月13日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

73+阅读 · 2025年2月15日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

AutoGPT太火了，无需人类插手自主完成任务，GitHub2.7万星

AutoGPT太火了，无需人类插手自主完成任务，GitHub2.7万星

专知会员服务

44+阅读 · 2023年4月14日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接

【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接

AINLP

18+阅读 · 2019年7月10日

这个印度程序员开源的教程在GitHub上火了！深度学习没在怕的

这个印度程序员开源的教程在GitHub上火了！深度学习没在怕的

大数据技术

15+阅读 · 2018年12月25日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Arxiv

0+阅读 · 2月19日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

Arxiv

0+阅读 · 2月9日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study

Arxiv

0+阅读 · 1月29日

On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents

Arxiv

0+阅读 · 1月28日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

3+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

5+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

5+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

17+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

13+阅读 · 5月29日

相关VIP内容

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

Al Agent：AI时代的软件革命

Al Agent：AI时代的软件革命

专知会员服务

47+阅读 · 2025年5月13日

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

AI行业专题报告：工具生态逐步完善，通用Agent曙光已现

专知会员服务

32+阅读 · 2025年3月27日

中国AI Agent行业研究报告（二）

中国AI Agent行业研究报告（二）

专知会员服务

48+阅读 · 2025年3月13日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

73+阅读 · 2025年2月15日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

AutoGPT太火了，无需人类插手自主完成任务，GitHub2.7万星

AutoGPT太火了，无需人类插手自主完成任务，GitHub2.7万星

专知会员服务

44+阅读 · 2023年4月14日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接

【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接

AINLP

18+阅读 · 2019年7月10日

这个印度程序员开源的教程在GitHub上火了！深度学习没在怕的

这个印度程序员开源的教程在GitHub上火了！深度学习没在怕的

大数据技术

15+阅读 · 2018年12月25日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

相关论文

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Arxiv

0+阅读 · 2月19日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

Arxiv

0+阅读 · 2月9日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study

Arxiv

0+阅读 · 1月29日

On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents

Arxiv

0+阅读 · 1月28日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于agent与众包数据获取服务的企业决策支持关键方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员