AI生成代码在开源项目中的生存命运解析 (Will It Survive? Deciphering the Fate of AI-Generated Code in Open Source) - 专知论文

会员服务 ·

0

代码 · AI · AI智能体 · 智能体 · 软件 ·

Will It Survive? Deciphering the Fate of AI-Generated Code in Open Source

翻译：AI生成代码在开源项目中的生存命运解析

Musfiqur Rahman,Emad Shihab

from arxiv, This paper has been submitted to EASE 2026 research track and currently under review

The integration of AI agents as coding assistants into software development has raised questions about the long-term viability of AI agent-generated code. A prevailing hypothesis within the software engineering community suggests this code is "disposable", meaning it is merged quickly but discarded shortly thereafter. If true, organizations risk shifting maintenance burden from generation to post-deployment remediation. We investigate this hypothesis through survival analysis of 201 open-source projects, tracking over 200,000 code units authored by AI agents versus humans. Contrary to the disposable code narrative, agent-authored code survives significantly longer: at the line level, it exhibits a 15.8 percentage-point lower modification rate and 16% lower hazard of modification (HR = 0.842, p < 0.001). However, modification profiles differ. Agent-authored code shows modestly elevated corrective rates (26.3% vs. 23.0%), while human code shows higher adaptive rates. However, the effect sizes are small (Cramér's V = 0.116), and per-agent variation exceeds the agent-human gap. Turning to prediction, textual features can identify modification-prone code (AUC-ROC = 0.671), but predicting when modifications occur remains challenging (Macro F1 = 0.285), suggesting timing depends on external organizational dynamics. The bottleneck for agent-generated code may not be generation quality, but the organizational practices that govern its long-term evolution.

翻译：将AI智能体作为编程助手融入软件开发，引发了关于AI智能体生成代码长期生存能力的疑问。软件工程界普遍存在一种假设，认为此类代码具有"一次性"特征，即被快速合并后不久即遭弃用。若此假设成立，组织将面临维护负担从生成阶段转移至部署后修复阶段的风险。我们通过对201个开源项目的生存分析展开研究，追踪了超过20万个由AI智能体与人类编写的代码单元。与"一次性代码"的论述相反，智能体编写的代码存活时间显著更长：在代码行级别，其修改率降低15.8个百分点，修改风险降低16%（风险比HR = 0.842，p < 0.001）。然而，两者的修改特征存在差异：智能体代码的纠错性修改率略高（26.3%对比23.0%），而人类代码的适应性修改率更高。但效应量较小（Cramér's V = 0.116），且智能体间的变异程度超过人机差异。在预测层面，文本特征可识别易修改代码（AUC-ROC = 0.671），但预测修改发生时机仍具挑战性（宏观F1分数 = 0.285），这表明修改时机取决于外部组织动态。AI生成代码的瓶颈可能不在于生成质量，而在于制约其长期演进的组织实践。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

20+阅读 · 2025年12月31日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

41+阅读 · 2025年8月18日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

72+阅读 · 2025年2月15日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

报告《生成式AI》| The State of Generative AI 2023，38页pdf

报告《生成式AI》| The State of Generative AI 2023，38页pdf

专知会员服务

106+阅读 · 2023年7月7日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

61+阅读 · 2023年4月1日

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

专知会员服务

82+阅读 · 2023年2月22日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

专知

11+阅读 · 2020年1月9日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

一键脱衣AI原理解密：开源算法，英伟达伯克利研究，不高深也不神秘

一键脱衣AI原理解密：开源算法，英伟达伯克利研究，不高深也不神秘

量子位

19+阅读 · 2019年7月2日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

程序人生

13+阅读 · 2017年12月24日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

What to Cut? Predicting Unnecessary Methods in Agentic Code Generation

Arxiv

0+阅读 · 2月19日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

Context Engineering for AI Agents in Open-Source Software

Arxiv

0+阅读 · 2月5日

Context Engineering for AI Agents in Open-Source Software

Arxiv

0+阅读 · 1月30日

Predicting Developer Acceptance of AI-Generated Code Suggestions

Arxiv

0+阅读 · 1月29日

AI-Assisted Programming Decreases the Productivity of Experienced Developers by Increasing the Technical Debt and Maintenance Burden

Arxiv

0+阅读 · 1月28日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 1月28日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

Arxiv

0+阅读 · 1月23日

Generative AI Agents for Controllable and Protected Content Creation

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

相关VIP内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

20+阅读 · 2025年12月31日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

16+阅读 · 2025年12月8日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

41+阅读 · 2025年8月18日

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

DeepSeek系列报告：AI编程或为B端最先崛起的AI应用

专知会员服务

72+阅读 · 2025年2月15日

【新书】使用AI智能体构建应用程序

【新书】使用AI智能体构建应用程序

专知会员服务

61+阅读 · 2024年10月26日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

报告《生成式AI》| The State of Generative AI 2023，38页pdf

报告《生成式AI》| The State of Generative AI 2023，38页pdf

专知会员服务

106+阅读 · 2023年7月7日

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

ChatGPT的代码生成是怎么做的？「基于深度学习的代码生成方法」最新研究进展

专知会员服务

61+阅读 · 2023年4月1日

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

【ChatGPT系列报告】从 ChatGPT 等生成式 AI 的算力开销及商业化潜力，26页pdf

专知会员服务

82+阅读 · 2023年2月22日

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

终究还是来了，AI卷革程序员！！DeepMind发布媲美普通程序员的AlphaCode

专知会员服务

27+阅读 · 2022年2月3日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

专知

11+阅读 · 2020年1月9日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

一键脱衣AI原理解密：开源算法，英伟达伯克利研究，不高深也不神秘

一键脱衣AI原理解密：开源算法，英伟达伯克利研究，不高深也不神秘

量子位

19+阅读 · 2019年7月2日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总

AINLP

22+阅读 · 2018年12月3日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

小学生开始学Python,最接近AI的编程语言:安利一波Python书单

程序人生

13+阅读 · 2017年12月24日

相关论文

What to Cut? Predicting Unnecessary Methods in Agentic Code Generation

Arxiv

0+阅读 · 2月19日

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Arxiv

0+阅读 · 2月12日

Context Engineering for AI Agents in Open-Source Software

Arxiv

0+阅读 · 2月5日

Context Engineering for AI Agents in Open-Source Software

Arxiv

0+阅读 · 1月30日

Predicting Developer Acceptance of AI-Generated Code Suggestions

Arxiv

0+阅读 · 1月29日

AI-Assisted Programming Decreases the Productivity of Experienced Developers by Increasing the Technical Debt and Maintenance Burden

Arxiv

0+阅读 · 1月28日

How do Agents Refactor: An Empirical Study

Arxiv

0+阅读 · 1月28日

Understanding Dominant Themes in Reviewing Agentic AI-authored Code

Arxiv

0+阅读 · 1月27日

AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

Arxiv

0+阅读 · 1月23日

Generative AI Agents for Controllable and Protected Content Creation

Arxiv

0+阅读 · 1月18日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

生命起源过程中“标签介导的遗传信息复制和表达的出现及演化”的计算机模拟研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员