The OpenSSF Scorecard is widely used to assess the security posture of open-source software repositories, with the Maintained metric indicating recent development activity and helping identify potentially abandoned dependencies. However, this metric is inherently retrospective, reflecting only the past 90 days of activity and providing no insight into future maintenance, which limits its usefulness for proactive risk assessment. In this paper, we study to what extent future maintenance activity, as captured by the OpenSSF Maintained score, can be forecasted. We analyze 3,220 GitHub repositories associated with the top 1% most central PyPI libraries by PageRank and reconstruct historical Maintained scores over a three-year period. We formulate the task as multivariate time series forecasting and consider four target representations: raw scores, bucketed maintenance levels, numerical trend slopes, and categorical trend types. We compare a statistical model (VARMA), a machine learning model (Random Forest), and a deep learning model (LSTM) across training windows of 3-12 months and forecasting horizons of 1-6 months. Our results show that future maintenance activity can be predicted with meaningful accuracy, particularly for aggregated representations such as bucketed scores and trend types, achieving accuracies above 0.95 and 0.80, respectively. Simpler statistical and machine learning models perform on par with deep learning approaches, indicating that complex architectures are not required. These findings suggest that predictive modeling can effectively complement existing Scorecard metrics, enabling more proactive assessment of open-source maintenance risks.


翻译:OpenSSF Scorecard被广泛用于评估开源软件仓库的安全态势,其中维护指标反映近期的开发活动,有助于识别可能被弃用的依赖项。然而,该指标本质上是回顾性的,仅反映过去90天的活动,无法提供对未来维护情况的洞察,这限制了其在主动风险评估中的实用性。本文研究了OpenSSF维护分数所体现的未来维护活动在多大程度上可以被预测。我们分析了与PageRank排名前1%的PyPI核心库相关联的3,220个GitHub仓库,并重建了三年期间的历史维护分数。我们将该任务构建为多元时间序列预测问题,并考虑四种目标表示形式:原始分数、分桶维护等级、数值趋势斜率和分类趋势类型。我们比较了统计模型(VARMA)、机器学习模型(随机森林)和深度学习模型(LSTM)在3-12个月训练窗口和1-6个月预测区间上的表现。结果表明,未来维护活动能够以具有实际意义的准确度进行预测,特别是对于分桶分数和趋势类型等聚合表示形式,分别达到0.95和0.80以上的准确率。较简单的统计和机器学习模型与深度学习方法表现相当,表明无需复杂架构。这些发现表明,预测建模能够有效补充现有Scorecard指标,实现对开源维护风险更主动的评估。

0
下载
关闭预览

相关内容

OpenAI“开放权重模型”即将进入美军作战体系
专知会员服务
27+阅读 · 2025年11月20日
《软件保障路线图》12页slides,美国国防工业协会
专知会员服务
31+阅读 · 2023年8月11日
华为人大清华最新论文:推荐领域的Benchmark终于出现了?
专知会员服务
52+阅读 · 2021年7月31日
数据库发展研究报告(2021年)
专知会员服务
50+阅读 · 2021年6月29日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
Github项目推荐 | PyTorch 中文手册 (pytorch handbook)
超级盘点 | Github年终各大排行榜(内附开源项目学习资源)
七月在线实验室
19+阅读 · 2018年12月19日
分别基于SVM和ARIMA模型的股票预测 Python实现 附Github源码
数据挖掘入门与实战
15+阅读 · 2017年9月9日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员