Software development has become essential to scientific research, but its relationship to traditional metrics of scholarly credit remains poorly understood. We develop a dataset of approximately 140,000 paired research articles and code repositories, and a predictive model that matches research article authors with software repository developer accounts. We use this dataset to investigate how software development activities influence credit allocation in collaborative scientific settings. Our findings reveal significant patterns distinguishing software contributions from traditional authorship credit. We find that $\sim$30\% of articles include non-author code contributors -- individuals who participated in software development but received no authorship recognition. While code-contributing authors provide a $\sim$4.2\% increase in article citations, this effect becomes non-significant when controlling for domain, article type, and open access status. First authors are significantly more likely to be code contributors than other author positions. Notably, we identify a negative relationship between coding frequency and scholarly impact metrics. Authors who contribute code more frequently exhibit progressively lower h-indices than non-coding colleagues, even when controlling for publication count, author position, domain, and article type. These results suggest a disconnect between software contributions and credit, highlighting important implications for institutional reward structures and science policy.


翻译:软件开发已成为科学研究的重要组成部分,但其与学术认可传统计量指标之间的关系仍不甚明晰。本研究构建了一个包含约14万篇研究论文与对应代码仓库的配对数据集,并开发了能够匹配论文作者与软件仓库开发者账户的预测模型。基于该数据集,我们深入探究了软件开发活动如何影响合作科研环境中的学术认可分配机制。研究发现,软件贡献与传统作者署名权之间存在显著差异模式:约30%的论文包含未获署名的代码贡献者——即参与了软件开发但未获得作者身份认可的研究人员。虽然代码贡献作者能使论文引用量提升约4.2%,但在控制学科领域、文章类型和开放获取状态后,该效应不再显著。第一作者成为代码贡献者的概率显著高于其他作者位次。值得注意的是,我们发现了编码频率与学术影响力指标之间的负相关关系:相较于非编码合作者,频繁贡献代码的作者其h指数呈现系统性偏低趋势,即使在控制发文量、作者位次、学科领域和文章类型后该现象依然存在。这些结果表明软件贡献与学术认可体系之间存在脱节现象,对机构奖励机制与科学政策制定具有重要启示意义。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
《基于大型语言模型的软件工程自动化研究》最新264页
专知会员服务
37+阅读 · 2025年7月14日
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
《深度学习代码智能》综述、基准和工具集
专知会员服务
56+阅读 · 2024年1月2日
Berkeley博士论文《反馈系统中的可信机器学习》203页pdf
专知会员服务
40+阅读 · 2022年3月25日
【资源】图深度学习文献列表
专知
42+阅读 · 2019年11月6日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
机器翻译学术论文写作方法和技巧
清华大学研究生教育
11+阅读 · 2018年12月23日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员