分析AI编码助手生成的拉取请求中消息与代码不一致问题 (Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests) - 专知论文

会员服务 ·

0

模式识别 · AI · 代码 · 一致 · 分析 ·

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

翻译：分析AI编码助手生成的拉取请求中消息与代码不一致问题

Jingzhi Gong,Giovanni Pinna,Yixin Bian,Jie M. Zhang

Pull request (PR) descriptions generated by AI coding agents are the primary channel for communicating code changes to human reviewers. However, the alignment between these messages and the actual changes remains unexplored, raising concerns about the trustworthiness of AI agents. To fill this gap, we analyzed 23,247 agentic PRs across five agents using PR message-code inconsistency (PR-MCI). We contributed 974 manually annotated PRs, found 406 PRs (1.7%) exhibited high PR-MCI, and identified eight PR-MCI types, revealing that descriptions claiming unimplemented changes was the most common issue (45.4%). Statistical tests confirmed that high-MCI PRs had 51.7% lower acceptance rates (28.3% vs. 80.0%) and took 3.5x longer to merge (55.8 vs. 16.0 hours). Our findings suggest that unreliable PR descriptions undermine trust in AI agents, highlighting the need for PR-MCI verification mechanisms and improved PR generation to enable trustworthy human-AI collaboration.

翻译：由AI编码助手生成的拉取请求（PR）描述是向人类评审者传达代码变更的主要渠道。然而，这些消息与实际变更之间的一致性尚未得到充分研究，这引发了人们对AI助手可信度的担忧。为填补这一空白，我们使用PR消息-代码不一致性（PR-MCI）指标，对五种AI助手生成的23,247个自动化PR进行了分析。我们贡献了974个手动标注的PR，发现406个PR（1.7%）表现出高PR-MCI，并识别出八种PR-MCI类型，其中描述声称实现未实际完成的变更是最常见的问题（45.4%）。统计检验证实，高MCI的PR接受率降低51.7%（28.3% vs. 80.0%），合并时间延长3.5倍（55.8 vs. 16.0小时）。我们的研究结果表明，不可靠的PR描述会削弱对AI助手的信任，这凸显了建立PR-MCI验证机制和改进PR生成方法的必要性，以实现可信的人机协作。

0

相关内容

模式识别

模式识别 Pattern Recognition

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

25+阅读 · 2025年4月5日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

195+阅读 · 2023年4月12日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

61+阅读 · 2023年4月1日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

104+阅读 · 2020年6月21日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

50+阅读 · 2022年8月31日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AINLP

36+阅读 · 2018年12月21日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

A Study of Library Usage in Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests

Arxiv

0+阅读 · 1月26日

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月26日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

相关VIP内容

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

25+阅读 · 2025年4月5日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

推荐！《人与AI协作中的可解释人工智能》320页论文

推荐！《人与AI协作中的可解释人工智能》320页论文

专知会员服务

137+阅读 · 2023年7月31日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知会员服务

195+阅读 · 2023年4月12日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

61+阅读 · 2023年4月1日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

105+阅读 · 2023年2月19日

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

【新书】人工智能Python代码，227页pdf，Python code for Artificial Intelligence: Foundations of Computational Agents

专知会员服务

104+阅读 · 2020年6月21日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

如何向ChatGPT问问题？这本手册《提问的艺术—让ChatGPT给出高质量答案》，提示工程技术全面指南，52页pdf

专知

27+阅读 · 2023年4月13日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

50+阅读 · 2022年8月31日

推荐：一文教你如何处理不平衡数据集（附代码）

推荐：一文教你如何处理不平衡数据集（附代码）

数据分析

20+阅读 · 2019年6月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AI Challenger 2018 冠军代码分享---细粒度情感分析赛道

AINLP

36+阅读 · 2018年12月21日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

相关论文

Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents

Arxiv

0+阅读 · 2月4日

Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests

Arxiv

0+阅读 · 1月27日

A Study of Library Usage in Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月27日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月27日

Let's Make Every Pull Request Meaningful: An Empirical Analysis of Developer and Agentic Pull Requests

Arxiv

0+阅读 · 1月26日

Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests

Arxiv

0+阅读 · 1月26日

Code Change Characteristics and Description Alignment: A Comparative Study of Agentic versus Human Pull Requests

Arxiv

0+阅读 · 1月24日

How AI Coding Agents Modify Code: A Large-Scale Study of GitHub Pull Requests

Arxiv

0+阅读 · 1月24日

Where Do AI Coding Agents Fail? An Empirical Study of Failed Agentic Pull Requests in GitHub

Arxiv

0+阅读 · 1月21日

相关基金

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员