人机协作与人主导的拉取请求：基于测试维度的特征分析与比较 (Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison) - 专知论文

会员服务 ·

0

协作 · 代码 · 人机协作 · 特征分析 · 分析 ·

Human-Agent versus Human Pull Requests: A Testing-Focused Characterization and Comparison

翻译：人机协作与人主导的拉取请求：基于测试维度的特征分析与比较

Roberto Milanese,Francesco Salzano,Angelica Spina,Antonio Vitale,Remo Pareschi,Fausto Fasano,Mattia Fazzini

AI-based coding agents are increasingly integrated into software development workflows, collaborating with developers to create pull requests (PRs). Despite their growing adoption, the role of human-agent collaboration in software testing remains poorly understood. This paper presents an empirical study of 6,582 human-agent PRs (HAPRs) and 3,122 human PRs (HPRs) from the AIDev dataset. We compare HAPRs and HPRs along three dimensions: (i) testing frequency and extent, (ii) types of testing-related changes (code-and-test co-evolution vs. test-focused), and (iii) testing quality, measured by test smells. Our findings reveal that, although the likelihood of including tests is comparable (42.9% for HAPRs vs. 40.0% for HPRs), HAPRs exhibit a larger extent of testing, nearly doubling the test-to-source line ratio found in HPRs. While test-focused task distributions are comparable, HAPRs are more likely to add new tests during co-evolution (OR=1.79), whereas HPRs prioritize modifying existing tests. Finally, although some test smell categories differ statistically, negligible effect sizes suggest no meaningful differences in quality. These insights provide the first characterization of how human-agent collaboration shapes testing practices.

翻译：基于人工智能的编码助手正日益融入软件开发工作流，与开发者协作创建拉取请求（PRs）。尽管其采用率持续增长，人机协作在软件测试中的作用仍鲜为人知。本文基于AIDev数据集中的6,582个人机协作PR（HAPR）与3,122个人主导PR（HPR）开展实证研究。我们从三个维度比较HAPR与HPR：（i）测试频率与覆盖范围，（ii）测试相关变更的类型（代码-测试协同演化与测试专项修改），以及（iii）以测试坏味道衡量的测试质量。研究发现：虽然包含测试的可能性相近（HAPR为42.9% vs. HPR为40.0%），但HAPR展现出更大的测试覆盖范围，其测试代码与源代码行数比值接近HPR的两倍。尽管测试专项任务分布相似，HAPR在协同演化过程中更倾向于新增测试（优势比=1.79），而HPR则优先修改现有测试。最后，虽然部分测试坏味道类别存在统计差异，但可忽略的效应量表明两者在质量上并无实质性区别。这些发现首次揭示了人机协作如何塑造测试实践的特征。

0

相关内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

25+阅读 · 2025年11月21日

《改进机器学习管道中的人类集成》人机协作最新263页论文

《改进机器学习管道中的人类集成》人机协作最新263页论文

专知会员服务

32+阅读 · 2024年8月13日

《人机协作测试与评估指标表征》117页

《人机协作测试与评估指标表征》117页

专知会员服务

62+阅读 · 2024年2月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

92+阅读 · 2024年1月7日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

专知会员服务

36+阅读 · 2023年3月30日

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

专知会员服务

88+阅读 · 2023年1月22日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

人脸检测与识别总结

人脸检测与识别总结

计算机视觉战队

21+阅读 · 2017年11月29日

全解：目标检测，图像分类、分割、生成……

全解：目标检测，图像分类、分割、生成……

全球人工智能

20+阅读 · 2017年9月15日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

0+阅读 · 2月18日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 2月9日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source

Arxiv

0+阅读 · 1月20日

Human-AI Collaborative Inductive Thematic Analysis: AI Guided Analysis and Human Interpretive Authority

Arxiv

0+阅读 · 1月17日

VIP会员

文章信息

相关主题

相关VIP内容

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

《人机协作中的自适应任务规划与动态角色分配》最新30页报告

专知会员服务

25+阅读 · 2025年11月21日

《改进机器学习管道中的人类集成》人机协作最新263页论文

《改进机器学习管道中的人类集成》人机协作最新263页论文

专知会员服务

32+阅读 · 2024年8月13日

《人机协作测试与评估指标表征》117页

《人机协作测试与评估指标表征》117页

专知会员服务

62+阅读 · 2024年2月3日

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

《基于强化学习在真实世界复杂环境中开展人机协作》最新44页论文

专知会员服务

92+阅读 · 2024年1月7日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

人机协作|《基于机器人的流程自动化》61页报告，美国国防采办大学

专知会员服务

36+阅读 · 2023年3月30日

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

《AI系统对抗性测试与评估的反人工智能工具系统设计》2022论文，美国西点军校

专知会员服务

88+阅读 · 2023年1月22日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

29+阅读 · 2022年2月17日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

清华大学、中国人工智能学会联合发布《2019人工智能发展报告》，391页pdf详述进展

专知

24+阅读 · 2019年12月1日

解读！10篇人机交互领域高引论文合集

解读！10篇人机交互领域高引论文合集

THU数据派

11+阅读 · 2019年11月14日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

人脸检测与识别总结

人脸检测与识别总结

计算机视觉战队

21+阅读 · 2017年11月29日

全解：目标检测，图像分类、分割、生成……

全解：目标检测，图像分类、分割、生成……

全球人工智能

20+阅读 · 2017年9月15日

相关论文

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

0+阅读 · 2月18日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 2月9日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

On Autopilot? An Empirical Study of Human-AI Teaming and Review Practices in Open Source

Arxiv

0+阅读 · 1月20日

Human-AI Collaborative Inductive Thematic Analysis: AI Guided Analysis and Human Interpretive Authority

Arxiv

0+阅读 · 1月17日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员