LLM-based coding agents increasingly rely on third-party extensions called skills, which bundle natural language instructions and helper scripts that execute with full user privileges. Community registries have emerged to distribute these skills, but the security implications remain unstudied due to the absence of labeled threat data. This paper presents a systematic security analysis of 98,380 skills collected from two major registries. Through a combination of static pattern matching and dynamic behavioral verification, we identify 157 skills exhibiting confirmed malicious behavior, encompassing 632 distinct vulnerabilities across 13 attack techniques. Our analysis reveals that these threats are deliberate rather than accidental: each malicious skill contains an average of 4.03 vulnerabilities spanning multiple attack phases. We identify two dominant attack strategies with statistically significant negative correlation -- credential theft via remote code execution, and agent manipulation through adversarial instructions embedded in documentation. Over half of all confirmed cases originate from a single threat actor employing templated brand impersonation at scale. We further observe that attack sophistication correlates with concealment investment, with advanced skills universally employing undocumented capabilities while also exploiting platform-native trust mechanisms. Following responsible disclosure, registry maintainers removed all 157 (100%) of the reported skills. Our dataset and detection pipeline are publicly available to facilitate future research on securing LLM agent ecosystems.


翻译:基于大语言模型的编码代理越来越依赖称为“技能”的第三方扩展,这些技能将自然语言指令与拥有完整用户权限的帮助脚本捆绑在一起。社区注册中心应运而生,用于分发这些技能,但由于缺乏标注威胁数据,其安全影响尚未得到研究。本文对从两大主要注册中心收集的98,380个技能进行了系统性安全分析。通过静态模式匹配与动态行为验证相结合,我们识别出157个表现出确认恶意行为的技能,涵盖13种攻击技术中的632个不同漏洞。我们的分析表明,这些威胁是蓄意而非偶然的:每个恶意技能平均包含4.03个跨越多个攻击阶段的漏洞。我们识别出两种具有统计显著负相关性的主要攻击策略——通过远程代码执行窃取凭证,以及通过嵌入文档中的对抗性指令操纵代理。超过半数已确认案例源自一个采用模板化品牌冒充进行规模化攻击的单一威胁行为者。我们进一步观察到,攻击复杂性与隐藏投入呈正相关,高级技能普遍使用未记录功能,同时利用平台原生的信任机制。经过负责任的披露,注册中心维护者已移除所有157个(100%)被报告的技能。我们的数据集和检测流程已公开,以促进未来对保护大语言模型代理生态系统安全的研究。

0
下载
关闭预览

相关内容

大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
分享8个强大的黑客技术学习网站
黑客技术与网络安全
89+阅读 · 2019年8月29日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员