Context: Self-admitted technical debt (SATD) occurs when developers acknowledge shortcuts in code. In scientific software (SSW), such debt poses unique risks to the validity and reproducibility of results. Objective: This study aims to identify, categorize, and evaluate scientific debt, a specialized form of SATD in SSW, and assess the extent to which traditional SATD categories capture these domain-specific issues. Method: We conduct a multi-artifact analysis across code comments, commit messages, pull requests, and issue trackers from 23 open-source SSW projects. We construct and validate a curated dataset of scientific debt, develop a multi-source SATD classifier, and conduct a practitioner validation to assess the practical relevance of scientific debt. Results: Our classifier performs strongly across 900,358 artifacts from 23 SSW projects. SATD is most prevalent in pull requests and issue trackers, underscoring the value of multi-artifact analysis. Models trained on traditional SATD often miss scientific debt, emphasizing the need for its explicit detection in SSW. Practitioner validation confirmed that scientific debt is both recognizable and useful in practice. Conclusions: Scientific debt represents a unique form of SATD in SSW that that is not adequately captured by traditional categories and requires specialized identification and management. Our dataset, classification analysis, and practitioner validation results provide the first formal multi-artifact perspective on scientific debt, highlighting the need for tailored SATD detection approaches in SSW.


翻译:背景:自认技术债务(SATD)指开发者在代码中承认的捷径。在科学软件(SSW)中,此类债务对结果的有效性和可复现性构成独特风险。目标:本研究旨在识别、分类和评估科学债务(SSW中专有的一种SATD形式),并评估传统SATD分类在多大程度上能捕捉这些领域特定问题。方法:我们对23个开源SSW项目的代码注释、提交信息、拉取请求和问题跟踪器进行多工件分析。我们构建并验证了科学债务的精选数据集,开发了多源SATD分类器,并开展了从业者验证以评估科学债务的实际相关性。结果:我们的分类器在来自23个SSW项目的900,358个工件上表现优异。SATD在拉取请求和问题跟踪器中最为普遍,凸显了多工件分析的价值。基于传统SATD训练的模型常遗漏科学债务,强调其在SSW中需要显式检测。从业者验证证实科学债务在实践中既可识别又具实用性。结论:科学债务是SSW中一种独特的SATD形式,传统分类未能充分捕捉,需要专门的识别与管理方法。我们的数据集、分类分析和从业者验证结果首次为科学债务提供了正式的多工件视角,表明SSW需要定制化的SATD检测方法。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年9月21日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年9月21日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员