Empirical studies of research software are hard to compare because the literature operationalizes ``research software'' inconsistently. Motivated by the research software supply chain (RSSC) and its security risks, we introduce an RSSC-oriented taxonomy that makes scope and operational boundaries explicit for empirical research software security studies. We conduct a targeted scoping review of recent repository mining and dataset construction studies, extracting each work's definition, inclusion criteria, unit of analysis, and identification heuristics. We synthesize these into a harmonized taxonomy and a mapping that translates prior approaches into shared taxonomy dimensions. We operationalize the taxonomy on a large community-curated corpus from the Research Software Encyclopedia (RSE), producing an annotated dataset, a labeling codebook, and a reproducible labeling pipeline. Finally, we apply OpenSSF Scorecard as a preliminary security analysis to show how repository-centric security signals differ across taxonomy-defined clusters and why taxonomy-aware stratification is necessary for interpreting RSSC security measurements.


翻译:由于文献中对“研究软件”的操作化定义不一致,实证研究软件的相关研究难以进行比较。受研究软件供应链及其安全风险的驱动,我们提出了一种面向RSSC的分类法,为实证研究软件安全研究明确了研究范围和操作边界。我们对近期的仓库挖掘与数据集构建研究进行了针对性范围综述,提取了每项工作的定义、纳入标准、分析单元和识别启发式方法。我们将这些要素综合成一个统一分类法及映射框架,将既有方法转化为共享的分类维度。我们在研究软件百科全书的大型社区策展语料库上实现了该分类法的操作化,生成了标注数据集、标注代码簿和可复现的标注流程。最后,我们运用OpenSSF Scorecard进行初步安全分析,展示了以代码仓库为中心的安全信号在分类法定义的不同集群中的差异,并阐释了为何基于分类法的分层对于解读RSSC安全度量至关重要。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
《AI/ML 供应链软件依赖性风险分析》2023最新95页论文
专知会员服务
39+阅读 · 2023年12月19日
哈德逊研究所报告:软件定义战术
专知会员服务
88+阅读 · 2023年1月6日
《数据安全风险分析及应对策略研究(2022年)》
专知会员服务
44+阅读 · 2022年2月5日
专知会员服务
34+阅读 · 2021年5月8日
专知会员服务
66+阅读 · 2021年1月25日
异质信息网络分析与应用综述,软件学报-北京邮电大学
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
浅析Faiss在推荐系统中的应用及原理
凡人机器学习
11+阅读 · 2020年5月5日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《AI/ML 供应链软件依赖性风险分析》2023最新95页论文
专知会员服务
39+阅读 · 2023年12月19日
哈德逊研究所报告:软件定义战术
专知会员服务
88+阅读 · 2023年1月6日
《数据安全风险分析及应对策略研究(2022年)》
专知会员服务
44+阅读 · 2022年2月5日
专知会员服务
34+阅读 · 2021年5月8日
专知会员服务
66+阅读 · 2021年1月25日
异质信息网络分析与应用综述,软件学报-北京邮电大学
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员