With the rapid evolution of Large Language Model (LLM) agent ecosystems, centralized skill marketplaces have emerged as pivotal infrastructure for augmenting agent capabilities. However, these marketplaces face unprecedented security challenges, primarily stemming from semantic-behavioral inconsistency and inter-skill combinatorial risks, where individually benign skills induce malicious behaviors during collaborative invocation. To address these vulnerabilities, we propose SkillProbe, a multi-stage security auditing framework driven by multi-agent collaboration. SkillProbe introduces a "Skills-for-Skills" design paradigm, encapsulating auditing processes into standardized skill modules to drive specialized agents through a rigorous pipeline, including admission filtering, semantic-behavioral alignment detection, and combinatorial risk simulation. We conducted a large-scale evaluation using 8 mainstream LLM series across 2,500 real-world skills from ClawHub. Our results reveal a striking popularity-security paradox, where download volume is not a reliable proxy for security quality, as over 90% of high-popularity skills failed to pass rigorous auditing. Crucially, we discovered that high-risk skills form a single giant connected component within the risk-link dimension, demonstrating that cascaded risks are systemic rather than isolated occurrences. We hope that SkillProbe will inspire researchers to provide a scalable governance infrastructure for constructing a trustworthy Agentic Web. SkillProbe is accessible for public experience at skillhub.holosai.io.


翻译:随着大语言模型智能体生态系统的快速发展,集中式技能市场已成为增强智能体能力的关键基础设施。然而,此类市场面临前所未有的安全挑战,主要源于语义-行为不一致以及技能间组合风险——即单个无害技能在协同调用过程中可能诱发恶意行为。针对这些漏洞,我们提出SkillProbe,一种由多智能体协同驱动的多阶段安全审计框架。该框架引入"以技能审计技能"设计范式,将审计流程封装为标准化的技能模块,引导专业化智能体执行严格流水线,包括准入过滤、语义-行为对齐检测及组合风险模拟。我们基于ClawHub平台的8个主流大语言模型系列及2500个真实技能开展大规模评估。结果揭示了显著的流行度-安全性悖论:下载量无法可靠反映安全质量,超过90%的高流行度技能未能通过严格审计。关键在于,我们发现在风险关联维度上,高风险技能形成单一巨型连通组件,表明级联风险具有系统性而非孤立性。我们希望SkillProbe能启发研究者构建可扩展的治理基础设施,以建立可信赖的智能体网络。SkillProbe已在skillhub.holosai.io开放公众体验。

0
下载
关闭预览

相关内容

智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
49+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
49+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员