Pre-trained models (PTMs) are machine learning models that have been trained in advance, often on large-scale data, and can be reused for new tasks, thereby reducing the need for costly training from scratch. Their widespread adoption introduces a new class of software dependency, which we term Software Dependencies 2.0, extending beyond conventional libraries to learned behaviors embodied in trained models and their associated artifacts. The integration of PTMs as software dependencies in real projects remains unclear, potentially threatening maintainability and reliability of modern software systems that increasingly rely on them. Objective: In this study, we investigate Software Dependencies 2.0 in open-source software (OSS) projects by examining the reuse of PTMs, with a focus on how developers manage and integrate these models. Specifically, we seek to understand: (1) how OSS projects structure and document their PTM dependencies; (2) what stages and organizational patterns emerge in the reuse pipelines of PTMs within these projects; and (3) the interactions among PTMs and other learned components across pipeline stages. We conduct a mixed-methods analysis of a statistically significant random sample of 401 GitHub repositories from the PeaTMOSS dataset (28,575 repositories reusing PTMs from Hugging Face and PyTorch Hub). We quantitatively examine PTM reuse by identifying patterns and qualitatively investigate how developers integrate and manage these models in practice.


翻译:预训练模型(PTMs)是预先训练完成的机器学习模型,通常基于大规模数据进行训练,可被复用于新任务,从而减少从头开始训练的高昂成本。其广泛采用引入了一类新的软件依赖,我们称之为"软件依赖2.0",其范畴超越了传统库函数,延伸至训练模型及其相关构件所体现的学习行为。PTMs作为软件依赖在实际项目中的集成状况尚不明确,可能对日益依赖此类模型的现代软件系统的可维护性与可靠性构成潜在威胁。研究目标:本研究通过考察PTMs的复用情况,探究开源软件(OSS)项目中的软件依赖2.0现象,重点关注开发者如何管理并集成这些模型。具体而言,我们旨在理解:(1)OSS项目如何构建并记录其PTM依赖;(2)这些项目中PTM复用流程呈现哪些阶段与组织模式;(3)不同流程阶段中PTMs与其他学习组件之间的交互关系。我们对来自PeaTMOSS数据集(包含28,575个复用Hugging Face与PyTorch Hub平台PTMs的代码库)中随机抽取的401个GitHub代码库进行了统计显著性混合方法分析。通过模式识别对PTM复用进行定量考察,并通过定性方法探究开发者在实践中集成与管理这些模型的具体方式。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
66+阅读 · 2021年11月30日
专知会员服务
86+阅读 · 2021年6月20日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
19+阅读 · 2021年6月15日
VIP会员
相关VIP内容
多模态预训练模型综述
专知会员服务
94+阅读 · 2023年11月20日
【计算所&清华等新书】预训练方法信息检索,109页pdf
专知会员服务
66+阅读 · 2021年11月30日
专知会员服务
86+阅读 · 2021年6月20日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员