Do Autonomous Agents Contribute Test Code? A Study of Tests in Agentic Pull Requests - 专知论文

会员服务 ·

0

智能代理 · 模式识别 · 代码 · 包含 · 软件 ·

Do Autonomous Agents Contribute Test Code? A Study of Tests in Agentic Pull Requests

翻译：自主代理是否贡献测试代码？基于智能代理拉取请求中测试的研究

Sabrina Haque,Sarvesh Ingale,Christoph Csallner

Testing is a critical practice for ensuring software correctness and long-term maintainability. As agentic coding tools increasingly submit pull requests (PRs), it becomes essential to understand how testing appears in these agent-driven workflows. Using the AIDev dataset, we present an empirical study of test inclusion in agentic pull requests. We examine how often tests are included, when they are introduced during the PR lifecycle and how test-containing PRs differ from non-test PRs in terms of size, turnaround time, and merge outcomes. Across agents, test-containing PRs are more common over time and tend to be larger and take longer to complete, while merge rates remain largely similar. We also observe variation across agents in both test adoption and the balance between test and production code within test PRs. Our findings provide a descriptive view of testing behavior in agentic pull requests and offer empirical grounding for future studies of autonomous software development.

翻译：测试是确保软件正确性和长期可维护性的关键实践。随着智能编码工具日益频繁地提交拉取请求（PRs），理解测试在这些智能驱动工作流中的表现变得至关重要。基于AIDev数据集，我们对智能代理拉取请求中的测试包含情况进行了实证研究。我们分析了测试被包含的频率、在PR生命周期中引入测试的时间节点，以及包含测试的PR与不含测试的PR在规模、周转时间和合并结果方面的差异。研究发现：跨智能代理的测试包含PR随时间推移愈发普遍，且往往规模更大、完成耗时更长，而合并率则基本保持相似。我们还观察到不同智能代理在测试采纳率以及测试PR中测试代码与生产代码的比例平衡方面存在差异。本研究为智能代理拉取请求中的测试行为提供了描述性视角，并为未来自主软件开发研究奠定了实证基础。

0

相关内容

智能代理

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

27+阅读 · 2025年10月24日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

《机器人和自主系统（RAS）的测试、确认和验证：系统性综述》63页长论文

《机器人和自主系统（RAS）的测试、确认和验证：系统性综述》63页长论文

专知会员服务

40+阅读 · 2023年3月8日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

专知会员服务

19+阅读 · 2021年2月12日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

深度学习与NLP

17+阅读 · 2019年10月16日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

类簇级测试中类测试序的生成技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison

Arxiv

0+阅读 · 1月29日

A Study of Library Usage in Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests

Arxiv

0+阅读 · 1月26日

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月26日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

基于动态知识图谱的人工智能代理自主研究周期 | 文献

基于动态知识图谱的人工智能代理自主研究周期 | 文献

专知会员服务

27+阅读 · 2025年10月24日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

【AI Agent行业深度】框架、应用方向、应用领域及相关公司一文深度梳理！（附下载）

专知会员服务

144+阅读 · 2024年1月1日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

62+阅读 · 2023年4月1日

《机器人和自主系统（RAS）的测试、确认和验证：系统性综述》63页长论文

《机器人和自主系统（RAS）的测试、确认和验证：系统性综述》63页长论文

专知会员服务

40+阅读 · 2023年3月8日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

【经典书】机器学习实践，2020页pdf讲述测试驱动的开发方法

专知会员服务

19+阅读 · 2021年2月12日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

【CCF优秀博士学位论文奖-2019】数据驱动的编译器测试与调试若干技术研究，北京大学陈俊洁

专知会员服务

11+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

如何进AI大厂？这本书400页《深度学习面试指南》书202页pdf简介实战中DL问题与解决答案，

专知

10+阅读 · 2022年1月5日

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

ML、DL、NLP面试常考知识点、代码、算法理论基础汇总分享

深度学习与NLP

17+阅读 · 2019年10月16日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison

Arxiv

0+阅读 · 1月29日

A Study of Library Usage in Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests

Arxiv

0+阅读 · 1月26日

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月26日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub

Arxiv

0+阅读 · 1月1日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

类簇级测试中类测试序的生成技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

劣者淘汰两阶段自适应临床试验的设计和分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员