科学中的代码贡献与学术认可 (Code Contribution and Credit in Science) - 专知论文

会员服务 ·

0

代码 · 软件 · 论文 · 软件开发 · 包含 ·

Code Contribution and Credit in Science

翻译：科学中的代码贡献与学术认可

Eva Maxfield Brown,Isaac Slaughter,Nicholas Weber

from arxiv, Revisions after peer-review. This is the "Accepted" version of the paper!

Software development has become essential to scientific research, but its relationship to traditional metrics of scholarly credit remains poorly understood. We develop a dataset of approximately 140,000 paired research articles and code repositories, and a predictive model that matches research article authors with software repository developer accounts. We use this dataset to investigate how software development activities influence credit allocation in collaborative scientific settings. Our findings reveal significant patterns distinguishing software contributions from traditional authorship credit. We find that $\sim$30\% of articles include non-author code contributors -- individuals who participated in software development but received no authorship recognition. While code-contributing authors provide a $\sim$4.2\% increase in article citations, this effect becomes non-significant when controlling for domain, article type, and open access status. First authors are significantly more likely to be code contributors than other author positions. Notably, we identify a negative relationship between coding frequency and scholarly impact metrics. Authors who contribute code more frequently exhibit progressively lower h-indices than non-coding colleagues, even when controlling for publication count, author position, domain, and article type. These results suggest a disconnect between software contributions and credit, highlighting important implications for institutional reward structures and science policy.

翻译：软件开发已成为科学研究的重要组成部分，但其与学术认可传统计量指标之间的关系仍不甚明晰。本研究构建了一个包含约14万篇研究论文与对应代码仓库的配对数据集，并开发了能够匹配论文作者与软件仓库开发者账户的预测模型。基于该数据集，我们深入探究了软件开发活动如何影响合作科研环境中的学术认可分配机制。研究发现，软件贡献与传统作者署名权之间存在显著差异模式：约30%的论文包含未获署名的代码贡献者——即参与了软件开发但未获得作者身份认可的研究人员。虽然代码贡献作者能使论文引用量提升约4.2%，但在控制学科领域、文章类型和开放获取状态后，该效应不再显著。第一作者成为代码贡献者的概率显著高于其他作者位次。值得注意的是，我们发现了编码频率与学术影响力指标之间的负相关关系：相较于非编码合作者，频繁贡献代码的作者其h指数呈现系统性偏低趋势，即使在控制发文量、作者位次、学科领域和文章类型后该现象依然存在。这些结果表明软件贡献与学术认可体系之间存在脱节现象，对机构奖励机制与科学政策制定具有重要启示意义。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

12+阅读 · 2025年11月18日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

37+阅读 · 2025年7月14日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

专知会员服务

52+阅读 · 2022年8月24日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知会员服务

58+阅读 · 2020年1月10日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

2019年中国中文信息学会优秀博士学位论文获奖名单公示

2019年中国中文信息学会优秀博士学位论文获奖名单公示

专知

10+阅读 · 2019年10月19日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

专知

27+阅读 · 2018年10月14日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

The 'Big Three' of Scientific Information: A comparative bibliometric review of Web of Science, Scopus, and OpenAlex

Arxiv

0+阅读 · 1月29日

Modeling Sampling Workflows for Code Repositories

Arxiv

0+阅读 · 1月27日

AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

Arxiv

0+阅读 · 1月23日

Evaluating and Achieving Controllable Code Completion in Code LLM

Arxiv

0+阅读 · 1月22日

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature

Arxiv

0+阅读 · 1月21日

Scientific production in the era of Large Language Models

Arxiv

0+阅读 · 1月19日

CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases

Arxiv

0+阅读 · 1月14日

Research Integrity and Academic Authority in the Age of Artificial Intelligence: From Discovery to Curation?

Arxiv

0+阅读 · 1月9日

Advancing Language Models for Code-related Tasks

Arxiv

0+阅读 · 1月8日

Assessing and Improving the Representativeness of Code Generation Benchmarks Using Knowledge Units (KUs) of Programming Languages -- An Empirical Study

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

12+阅读 · 2025年11月18日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

37+阅读 · 2025年7月14日

【ETHZ博士论文】机器学习代码: 安全性与可靠性

【ETHZ博士论文】机器学习代码: 安全性与可靠性

专知会员服务

19+阅读 · 2024年10月25日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

干货满满，中科院信工所于静新课帮你get学术研究与论文写作技能，附slides与视频

专知会员服务

52+阅读 · 2022年8月24日

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

Berkeley博士论文《反馈系统中的可信机器学习》203页pdf

专知会员服务

40+阅读 · 2022年3月25日

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

【重磅】迈向可信赖的人工智能，59位作者，80页pdf阐述Trustworthy AI可验证声明的支持机制

专知会员服务

63+阅读 · 2020年4月16日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知会员服务

58+阅读 · 2020年1月10日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【资源】图深度学习文献列表

【资源】图深度学习文献列表

专知

42+阅读 · 2019年11月6日

2019年中国中文信息学会优秀博士学位论文获奖名单公示

2019年中国中文信息学会优秀博士学位论文获奖名单公示

专知

10+阅读 · 2019年10月19日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

人脸相关文献代码集锦：人脸检测、人脸识别、人脸生成等

专知

15+阅读 · 2019年5月20日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

机器翻译学术论文写作方法和技巧

机器翻译学术论文写作方法和技巧

清华大学研究生教育

11+阅读 · 2018年12月23日

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

干货|36页最新深度学习综述论文：算法、技术、应用，181篇参考文献

专知

27+阅读 · 2018年10月14日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

送你6份最新开源代码！含NLP、ML、计算机视觉方向（附代码&论文）

数据派THU

13+阅读 · 2017年11月29日

相关论文

The 'Big Three' of Scientific Information: A comparative bibliometric review of Web of Science, Scopus, and OpenAlex

Arxiv

0+阅读 · 1月29日

Modeling Sampling Workflows for Code Repositories

Arxiv

0+阅读 · 1月27日

AI builds, We Analyze: An Empirical Study of AI-Generated Build Code Quality

Arxiv

0+阅读 · 1月23日

Evaluating and Achieving Controllable Code Completion in Code LLM

Arxiv

0+阅读 · 1月22日

Large-Scale Multidimensional Knowledge Profiling of Scientific Literature

Arxiv

0+阅读 · 1月21日

Scientific production in the era of Large Language Models

Arxiv

0+阅读 · 1月19日

CodeWiki: Evaluating AI's Ability to Generate Holistic Documentation for Large-Scale Codebases

Arxiv

0+阅读 · 1月14日

Research Integrity and Academic Authority in the Age of Artificial Intelligence: From Discovery to Curation?

Arxiv

0+阅读 · 1月9日

Advancing Language Models for Code-related Tasks

Arxiv

0+阅读 · 1月8日

Assessing and Improving the Representativeness of Code Generation Benchmarks Using Knowledge Units (KUs) of Programming Languages -- An Empirical Study

Arxiv

0+阅读 · 1月7日

相关基金

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

中美科学基金资助与知识生产比较研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员