Agent ecosystems increasingly rely on installable skills to extend functionality, and some skills bundle learned model artifacts as part of their execution logic. This creates a supply-chain risk that is not captured by prompt injection or ordinary plugin misuse: a third-party skill may appear benign while concealing malicious behavior inside its bundled model. We present BadSkill, a backdoor attack formulation that targets this model-in-skill threat surface. In BadSkill, an adversary publishes a seemingly benign skill whose embedded model is backdoor-fine-tuned to activate a hidden payload only when routine skill parameters satisfy attacker-chosen semantic trigger combinations. To realize this attack, we train the embedded classifier with a composite objective that combines classification loss, margin-based separation, and poison-focused optimization, and evaluate it in an OpenClaw-inspired simulation environment that preserves third-party skill installation and execution while enabling controlled multi-model study. Our benchmark spans 13 skills, including 8 triggered tasks and 5 non-trigger control skills, with a combined main evaluation set of 571 negative-class queries and 396 trigger-aligned queries. Across eight architectures (494M--7.1B parameters) from five model families, BadSkill achieves up to 99.5\% average attack success rate (ASR) across the eight triggered skills while maintaining strong benign-side accuracy on negative-class queries. In poison-rate sweeps on the standard test split, a 3\% poison rate already yields 91.7\% ASR. The attack remains effective across the evaluated model scales and under five text perturbation types. These findings identify model-bearing skills as a distinct model supply-chain risk in agent ecosystems and motivate stronger provenance verification and behavioral vetting for third-party skill artifacts.


翻译:智能体生态系统日益依赖可安装的技能来扩展功能,部分技能将学习到的模型工件作为其执行逻辑的一部分进行捆绑。这带来了一种供应链风险,该风险未被提示注入或普通插件滥用所涵盖:第三方技能可能看似无害,同时在其捆绑模型内隐藏恶意行为。我们提出BadSkill,一种针对此类技能内模型威胁面的后门攻击方法。在BadSkill中,攻击者发布一个看似良性的技能,其嵌入的模型通过后门微调,使得只有当常规技能参数满足攻击者选择的语义触发器组合时,才会激活隐藏载荷。为实现此攻击,我们使用包含分类损失、基于边界的分离和投毒导向优化的复合目标来训练嵌入的分类器,并在一个仿OpenClaw的仿真环境中进行评估,该环境保留了第三方技能的安装与执行,同时支持受控的多模型研究。我们的基准测试涵盖13个技能,包括8个触发任务和5个非触发控制技能,组合主评估集包含571个负类查询和396个触发器对齐查询。跨五个模型家族的八种架构(参数规模494M至7.1B),BadSkill在八个触发技能上实现了高达99.5%的平均攻击成功率(ASR),同时在负类查询上保持了强良性侧准确率。在标准测试集划分的投毒率扫描中,3%的投毒率即可达到91.7%的ASR。该攻击在评估的模型规模下以及五种文本扰动类型中仍然有效。这些发现将承载模型的技能识别为智能体生态系统中一种独特的模型供应链风险,并促使对第三方技能工件进行更强的来源验证和行为审查。

0
下载
关闭预览

相关内容

AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
47+阅读 · 2025年3月4日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
专知会员服务
67+阅读 · 2021年1月10日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Arxiv
0+阅读 · 6月15日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员