The rapid growth of Artificial Intelligence (AI) models and applications has led to an increasingly complex security landscape. Developers of AI projects must contend not only with traditional software supply chain issues but also with novel, AI-specific security threats. However, little is known about what security issues are commonly encountered and how they are resolved in practice. This gap hinders the development of effective security measures for each component of the AI supply chain. We bridge this gap by conducting an empirical investigation of developer-reported issues and solutions, based on discussions from Hugging Face and GitHub. To identify security-related discussions, we develop a pipeline that combines keyword matching with an optimal fine-tuned distilBERT classifier, which achieved the best performance in our extensive comparison of various deep learning and large language models. This pipeline produces a dataset of 312,868 security discussions, providing insights into the security reporting practices of AI applications and projects. We conduct a thematic analysis of 753 posts sampled from our dataset and uncover a fine-grained taxonomy of 32 security issues and 24 solutions across four themes: (1) System and Software, (2) External Tools and Ecosystem, (3) Model, and (4) Data. We reveal that many security issues arise from the complex dependencies and black-box nature of AI components. Notably, challenges related to Models and Data often lack concrete solutions. Our insights can offer evidence-based guidance for developers and researchers to address real-world security threats across the AI supply chain.


翻译:人工智能(AI)模型与应用的快速增长导致安全态势日益复杂。人工智能项目的开发者不仅需要应对传统的软件供应链问题,还必须处理新型的、AI特有的安全威胁。然而,目前对于实践中常见的安全问题类型及其解决方式知之甚少。这一认知缺口阻碍了针对AI供应链各环节制定有效安全措施的进程。我们基于Hugging Face和GitHub上的讨论,对开发者报告的问题与解决方案进行了实证研究,以弥合这一缺口。为识别安全相关讨论,我们开发了一个结合关键词匹配与最优微调distilBERT分类器的处理流程;该分类器在我们对各种深度学习及大语言模型的广泛比较中取得了最佳性能。此流程生成了一个包含312,868条安全讨论的数据集,为理解AI应用与项目的安全报告实践提供了洞见。我们从数据集中抽样753条帖子进行了主题分析,并构建了一个细粒度的分类体系,涵盖四大主题:(1)系统与软件,(2)外部工具与生态系统,(3)模型,以及(4)数据;共归纳出32类安全问题和24类解决方案。我们发现,许多安全问题源于AI组件复杂的依赖关系及其黑盒特性。值得注意的是,与模型和数据相关的挑战往往缺乏具体的解决方案。我们的研究结果可为开发者和研究人员提供基于实证的指导,以应对AI供应链中现实存在的安全威胁。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
专知会员服务
63+阅读 · 2021年7月5日
专知会员服务
46+阅读 · 2021年6月25日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【供应链】供应链的未来:自我学习的供应链
产业智能官
14+阅读 · 2018年9月8日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
VIP会员
相关VIP内容
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
人工智能安全挑战及治理研究
专知会员服务
67+阅读 · 2023年6月18日
专知会员服务
63+阅读 · 2021年7月5日
专知会员服务
46+阅读 · 2021年6月25日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员