Large language model (LLM) agents increasingly rely on skills to package reusable capabilities through instructions, tools, and resources. High-quality skills embed expert knowledge, curated workflows, and execution constraints into agents, fueling a growing skill economy through their value and scalability. Yet this ecosystem also creates a new attack surface, as adversaries can interact with public agent interfaces to extract hidden proprietary skill content. We present the first systematic study of black-box skill stealing against LLM agent systems. Compared with conventional system prompt stealing, skill stealing targets modular and structured capability packages whose leakage is directly actionable for copying, redistribution, and monetization, making the resulting harm potentially greater. To study this threat, we derive an attack taxonomy from prior prompt-stealing methods and build an automated stealing prompt generation agent. Starting from model-generated seed prompts, the framework expands attacks through scenario rationalization and structure injection while enforcing diversity via embedding-based filtering, yielding a reproducible pipeline for evaluating proprietary agent systems. We evaluate these attacks across commercial agent platforms and representative LLMs. Our results show that agent skills can often be extracted easily, posing a serious copyright risk. To mitigate this threat, we design defenses across the agent pipeline, focusing on input, inference, and output phase. Although these defenses substantially reduce leakage, the attack remains inexpensive and repeatable, and a single successful attempt is sufficient to compromise the protected skill. Overall, our findings suggest that these copyright risks remain largely overlooked across proprietary agent ecosystems, motivating stronger protection mechanisms.


翻译:大语言模型(LLM)智能体日益依赖通过指令、工具和资源封装可复用能力的技能。高质量技能将专家知识、精心设计的工作流程和执行约束嵌入智能体,凭借其价值和可扩展性催生了不断壮大的技能经济生态。然而,这一生态系统也创造了新的攻击面:攻击者可通过与公开智能体接口交互来提取隐藏的专有技能内容。我们首次对针对LLM智能体系统的黑盒技能窃取进行了系统研究。与传统的系统提示窃取相比,技能窃取针对模块化、结构化的能力包,其泄露可直接用于复制、分发和货币化,造成的潜在危害更大。为研究这一威胁,我们从先前的提示窃取方法中推导出攻击分类体系,并构建了自动化窃取提示生成智能体。该框架从模型生成的种子提示出发,通过场景合理化与结构注入扩展攻击,同时基于嵌入过滤确保多样性,形成可复现的专有智能体系统评估流水线。我们在商业智能体平台和代表性大语言模型上评估了这些攻击。结果表明,智能体技能往往极易被提取,构成严重的版权风险。为缓解这一威胁,我们在智能体流水线的输入、推理和输出阶段设计了防御措施。尽管这些防御能显著减少泄露,但攻击仍然低成本且可重复,单次成功尝试就足以破坏受保护的技能。总体而言,我们的发现表明这些版权风险在专有智能体生态系统中仍普遍被忽视,亟需更强的保护机制。

0
下载
关闭预览

相关内容

跨越黑盒:大语言模型的理论与机制
专知会员服务
37+阅读 · 1月7日
《大语言模型智能体:方法、应用与挑战综述》
专知会员服务
62+阅读 · 2025年3月28日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
可信赖LLM智能体的研究综述:威胁与应对措施
专知会员服务
36+阅读 · 2025年3月17日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员