Large Language Models (LLMs) are increasingly integrated into software systems, giving rise to a new class of systems referred to as LLMware. Beyond traditional source-code components, LLMware embeds or interacts with LLMs that depend on other models and datasets, forming complex supply chains across open-source software (OSS), models, and datasets. However, licensing issues emerging from these intertwined dependencies remain largely unexplored. Leveraging GitHub and Hugging Face, we curate a large-scale dataset capturing LLMware supply chains, including 12,180 OSS repositories, 3,988 LLMs, and 708 datasets. Our analysis reveals that license distributions in LLMware differ substantially from traditional OSS ecosystems. We further examine license-related discussions and find that license selection and maintenance are the dominant concerns, accounting for 84% of cases. To understand incompatibility risks, we analyze license conflicts along supply chains and evaluate state-of-the-art detection approaches, which achieve only 58% and 76% F1 scores in this setting. Motivated by these limitations, we propose LiAgent, an LLM-based agent framework for ecosystem-level license compatibility analysis. LiAgent achieves an F1 score of 87%, improving performance by 14 percentage points over prior methods. We reported 60 incompatibility issues detected by LiAgent, 11 of which have been confirmed by developers. Notably, two conflicted LLMs have over 107 million and 5 million downloads on Hugging Face, respectively, indicating potentially widespread downstream impact. We conclude with implications and recommendations to support the sustainable growth of the LLMware ecosystem.


翻译:大型语言模型(LLM)正日益融入软件系统,催生了一类被称为LLMware的新型系统。除传统源代码组件外,LLMware通过嵌入或交互的方式依赖其他模型与数据集,形成了跨越开源软件(OSS)、模型与数据集的复杂供应链。然而,这些相互交织的依赖关系所产生的许可问题仍鲜有研究。基于GitHub与Hugging Face平台,我们构建了大规模LLMware供应链数据集,涵盖12,180个OSS代码库、3,988个LLM模型及708个数据集。分析表明,LLMware中的许可证分布与传统OSS生态系统存在显著差异。通过考察许可证相关讨论,我们发现许可证选择与维护是开发者最关注的问题,占比达84%。为评估兼容性风险,我们分析了供应链中的许可证冲突现象,并对现有检测方法进行了评估——其在此场景下的F1分数仅为58%与76%。针对现有方法的局限性,我们提出了LiAgent:基于LLM的智能体框架,用于生态系统层级的许可证兼容性分析。LiAgent实现了87%的F1分数,较现有方法提升14个百分点。通过LiAgent检测到的60个兼容性问题中,已有11个获得开发者确认。值得注意的是,其中两个存在冲突的LLM模型在Hugging Face平台的下载量分别超过1.07亿次与500万次,暗示其可能产生的广泛下游影响。最后,我们提出促进LLMware生态系统可持续发展的建议与启示。

0
下载
关闭预览

相关内容

【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
27+阅读 · 2025年6月15日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大型语言模型代理的安全与隐私综述
专知会员服务
29+阅读 · 2024年8月5日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
国防中的LLM:五角大楼的机遇与挑战
专知会员服务
43+阅读 · 2024年3月5日
赛尔译文|基础模型的风险与机遇(五)
哈工大SCIR
11+阅读 · 2021年11月30日
赛尔译文 | 基础模型的机遇与风险 (三)
哈工大SCIR
12+阅读 · 2021年10月26日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
LLMs与生成式智能体模拟:复杂系统研究的新范式
专知会员服务
27+阅读 · 2025年6月15日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大型语言模型代理的安全与隐私综述
专知会员服务
29+阅读 · 2024年8月5日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
国防中的LLM:五角大楼的机遇与挑战
专知会员服务
43+阅读 · 2024年3月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员