Empirical Study on the Characteristics and Evolution of AI-usage in GitHub Repositories: Evidence from Code Comments - 专知论文

会员服务 ·

0

代码 · AI · 注释（编程） · 输出 · GitHub ·

Empirical Study on the Characteristics and Evolution of AI-usage in GitHub Repositories: Evidence from Code Comments

翻译：关于GitHub仓库中AI使用特征与演化的实证研究：来自代码注释的证据

Abdullah Al Mujahid,Preetha Chatterjee,Mia Mohammad Imran

from arxiv, Preprint version

Developers increasingly use AI tools such as ChatGPT, Copilot, and Claude in everyday software workflows, but prior studies often evaluate LLM outputs in isolation rather than examining how developers adapt them in real projects. We analyze 35,361 GitHub code comments that explicitly reference AI use and their associated code blocks. We first open-code 500 unique comments and code blocks to derive a taxonomy of AI-assisted development activities, then annotate the full dataset using two LLM-based classifiers and aggregate predictions with Dawid-Skene expectation-maximization. We also analyze 12,996 subsequent commit messages to study how AI-assisted code evolves after introduction, and examine temporal trends from December 2022 to March 2026. Our results show that developers primarily use LLMs for code implementation, followed by code enhancement, debugging, documentation, and testing. Subsequent commits frequently involve refactoring and cleanup, feature integration and extension, and bug fixing, indicating sustained human oversight in adapting AI-assisted code. Over time, AI-referencing comments shift from direct code generation toward knowledge and conceptual support and code enhancement. These findings suggest that AI tools are becoming embedded not only as code-generation aids, but also as collaborative support mechanisms whose outputs are refined, extended, and corrected by developers over time.

翻译：开发者越来越多地使用ChatGPT、Copilot和Claude等AI工具处理日常软件工作流，但现有研究往往孤立评估大语言模型输出，而非考察开发者如何在真实项目中调整这些输出。我们分析了35,361条明确引用AI使用的GitHub代码注释及其关联的代码块。首先对500条独特注释与代码块进行开放编码，推导出AI辅助开发活动分类体系，随后使用两个基于LLM的分类器对完整数据集进行标注，并通过Dawid-Skene期望最大化算法聚合预测结果。我们还分析了12,996条后续提交信息，以研究AI辅助代码在引入后的演化过程，并考察了2022年12月至2026年3月的时间趋势。结果表明，开发者主要使用LLM进行代码实现，其次是代码增强、调试、文档编写和测试。后续提交频繁涉及重构与清理、功能集成与扩展、以及错误修复，表明在适配AI辅助代码过程中存在持续的人工监管。随时间推移，引用AI的注释从直接代码生成转向知识概念支持和代码增强。这些发现表明，AI工具不仅作为代码生成辅助手段，更逐渐嵌入为协作支持机制，其输出经开发者持续修正、扩展与完善。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

【新书】利用OpenAI API构建 AI应用：利用ChatGPT、Whisper和DALL-E API 构建10个创新AI项目

【新书】利用OpenAI API构建 AI应用：利用ChatGPT、Whisper和DALL-E API 构建10个创新AI项目

专知会员服务

39+阅读 · 2024年12月3日

【新书】使用 OpenAI API 构建 AI 应用：利用 ChatGPT等构建 10 个 AI 项目（第二版），404页pdf

【新书】使用 OpenAI API 构建 AI 应用：利用 ChatGPT等构建 10 个 AI 项目（第二版），404页pdf

专知会员服务

47+阅读 · 2024年10月12日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

68+阅读 · 2024年8月24日

AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型

AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型

专知会员服务

59+阅读 · 2024年2月10日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

50+阅读 · 2023年12月20日

【2023新书】用ChatGPT API构建AI应用：通过开发十个创新的AI项目掌握ChatGPT、Whisper和DALL-E

【2023新书】用ChatGPT API构建AI应用：通过开发十个创新的AI项目掌握ChatGPT、Whisper和DALL-E

专知会员服务

136+阅读 · 2023年9月27日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

盘点当下大热的 7 大 Github 机器学习『创新』项目

盘点当下大热的 7 大 Github 机器学习『创新』项目

机器学习算法与Python学习

13+阅读 · 2019年9月20日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

GitHub万星的中文机器学习资源：路线图、视频、电子书、学习建议全在这

GitHub万星的中文机器学习资源：路线图、视频、电子书、学习建议全在这

数据派THU

48+阅读 · 2019年4月28日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

我们从250个机器学习开源项目中挑出了Top 10，Github平均star979

我们从250个机器学习开源项目中挑出了Top 10，Github平均star979

AI100

14+阅读 · 2018年5月24日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

Rule Taxonomy and Evolution in AI IDEs: A Mining and Survey Study

Arxiv

0+阅读 · 6月10日

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

Arxiv

0+阅读 · 6月6日

Learning to Solve and Optimize by Evolving Code

Arxiv

0+阅读 · 5月29日

On the Road to Personalized Code Intelligence: Portraiting and Assisting Developers Based on Their In-IDE Behaviors

Arxiv

0+阅读 · 5月28日

Decoding the Configuration of AI Coding Agents: Insights from Claude Code Projects

Arxiv

0+阅读 · 5月25日

Reimagining Assessment in the Age of Generative AI: Lessons from Open-Book Exams with ChatGPT

Arxiv

0+阅读 · 5月12日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 5月7日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

VIP会员

文章信息

相关主题

注释（编程）

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

14+阅读 · 5月2日

AI生成代码缺陷综述

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

【新书】利用OpenAI API构建 AI应用：利用ChatGPT、Whisper和DALL-E API 构建10个创新AI项目

【新书】利用OpenAI API构建 AI应用：利用ChatGPT、Whisper和DALL-E API 构建10个创新AI项目

专知会员服务

39+阅读 · 2024年12月3日

【新书】使用 OpenAI API 构建 AI 应用：利用 ChatGPT等构建 10 个 AI 项目（第二版），404页pdf

【新书】使用 OpenAI API 构建 AI 应用：利用 ChatGPT等构建 10 个 AI 项目（第二版），404页pdf

专知会员服务

47+阅读 · 2024年10月12日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建出色的软件

专知会员服务

48+阅读 · 2024年9月23日

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

【新书】AI驱动的开发者：使用ChatGPT和Copilot构建优秀的软件，242页pdf

专知会员服务

68+阅读 · 2024年8月24日

AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型

AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型

专知会员服务

59+阅读 · 2024年2月10日

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

因果科学 x Agents：如何让AI更好地理解因果？｜TMLR (2023) 因果强化学习最新综述

专知会员服务

50+阅读 · 2023年12月20日

【2023新书】用ChatGPT API构建AI应用：通过开发十个创新的AI项目掌握ChatGPT、Whisper和DALL-E

【2023新书】用ChatGPT API构建AI应用：通过开发十个创新的AI项目掌握ChatGPT、Whisper和DALL-E

专知会员服务

136+阅读 · 2023年9月27日

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

ChatGPT引领AIGC！Lehigh最新《AI生成内容(AIGC)》全面综述，44页pdf详述GAN到ChatGPT发展历程

专知会员服务

171+阅读 · 2023年3月14日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

盘点当下大热的 7 大 Github 机器学习『创新』项目

盘点当下大热的 7 大 Github 机器学习『创新』项目

机器学习算法与Python学习

13+阅读 · 2019年9月20日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

GitHub万星的中文机器学习资源：路线图、视频、电子书、学习建议全在这

GitHub万星的中文机器学习资源：路线图、视频、电子书、学习建议全在这

数据派THU

48+阅读 · 2019年4月28日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

GitHub获赞过千：PyTorch 自然语言处理项目Top 5

新智元

12+阅读 · 2018年7月10日

我们从250个机器学习开源项目中挑出了Top 10，Github平均star979

我们从250个机器学习开源项目中挑出了Top 10，Github平均star979

AI100

14+阅读 · 2018年5月24日

相关论文

Rule Taxonomy and Evolution in AI IDEs: A Mining and Survey Study

Arxiv

0+阅读 · 6月10日

AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights

Arxiv

0+阅读 · 6月6日

Learning to Solve and Optimize by Evolving Code

Arxiv

0+阅读 · 5月29日

On the Road to Personalized Code Intelligence: Portraiting and Assisting Developers Based on Their In-IDE Behaviors

Arxiv

0+阅读 · 5月28日

Decoding the Configuration of AI Coding Agents: Insights from Claude Code Projects

Arxiv

0+阅读 · 5月25日

Reimagining Assessment in the Age of Generative AI: Lessons from Open-Book Exams with ChatGPT

Arxiv

0+阅读 · 5月12日

Comparing AI Coding Agents: A Task-Stratified Analysis of Pull Request Acceptance

Arxiv

0+阅读 · 5月7日

A Survey on ChatGPT: AI-Generated Contents, Challenges, and Solutions

Arxiv

54+阅读 · 2023年5月25日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

Arxiv

34+阅读 · 2023年3月7日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于知识库构建的图像和视频角色语义关系的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员