Software repositories provide a detailed record of software evolution by capturing developer interactions through code-related activities such as pull requests and modifications. To better understand the underlying dynamics of codebase evolution, we introduce a novel approach that integrates semantic code embeddings with opinion dynamics theory, offering a quantitative framework to analyze collaborative development processes. Our approach begins by encoding code snippets into high-dimensional vector representations using state-of-the-art code embedding models, preserving both syntactic and semantic features. These embeddings are then processed using Principal Component Analysis (PCA) for dimensionality reduction, with data normalized to ensure comparability. We model temporal evolution using the Expressed-Private Opinion (EPO) model to derive trust matrices and track opinion trajectories across development cycles. These opinion trajectories reflect the underlying dynamics of consensus formation, influence propagation, and evolving alignment (or divergence) within developer communities -- revealing implicit collaboration patterns and knowledge-sharing mechanisms that are otherwise difficult to observe. By bridging software engineering and computational social science, our method provides a principled way to quantify software evolution, offering new insights into developer influence, consensus formation, and project sustainability. We evaluate our approach on data from three prominent open-source GitHub repositories, demonstrating its ability to reveal interpretable behavioral trends and variations in developer interactions. The results highlight the utility of our framework in improving open-source project maintenance through data-driven analysis of collaboration dynamics.


翻译:软件仓库通过捕获开发者通过代码相关活动(如拉取请求和修改)的交互,提供了软件演化的详细记录。为更好地理解代码库演化的底层动态,我们提出了一种新颖方法,将语义代码嵌入与观点动力学理论相结合,为分析协作开发过程提供了一个量化框架。我们的方法首先使用最先进的代码嵌入模型将代码片段编码为高维向量表示,同时保留句法和语义特征。随后使用主成分分析(PCA)对这些嵌入进行降维处理,并对数据进行归一化以确保可比性。我们采用表达-私有观点(EPO)模型对时间演化进行建模,以推导信任矩阵并追踪开发周期中的观点轨迹。这些观点轨迹反映了开发者社区内共识形成、影响传播以及不断变化的(或分歧的)潜在动态——揭示了原本难以观察的隐性协作模式和知识共享机制。通过桥接软件工程与计算社会科学,我们的方法为量化软件演化提供了原则性途径,为开发者影响力、共识形成和项目可持续性提供了新的见解。我们在三个知名开源GitHub仓库的数据上评估了该方法,证明了其揭示可解释行为趋势和开发者交互变化的能力。结果凸显了我们的框架通过协作动态的数据驱动分析来改进开源项目维护的实用性。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
通过强化学习增强代码生成中的代码大语言模型:综述
专知会员服务
29+阅读 · 2025年1月1日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
《深度学习代码智能》综述、基准和工具集
专知会员服务
56+阅读 · 2024年1月2日
一文看懂AutoEncoder模型演进图谱
AINLP
12+阅读 · 2019年6月17日
Python机器学习课程(代码与教程)
专知
37+阅读 · 2019年5月13日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
【干货】深入理解自编码器(附代码实现)
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月28日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员