智能体技能综合综述：分类、技术与应用

基于大语言模型（LLM）的智能体能够通过工具、记忆和结构化交互进行推理、规划与行动，正成为自动化复杂工作流的一种有前景的范式。OpenClaw 和 Claude Code 等近期系统体现了一种更广泛的转变：从被动式响应生成转向面向行动的任务执行。然而，随着智能体迈向开放式、真实世界部署，针对每项任务都依赖从零开始的推理和低层级工具调用，正变得愈发低效、易出错且难以维护。

本综述从智能体技能（agent skills）的视角审视这一挑战。我们将智能体技能定义为可复用的过程性工件，用于在任务特定约束下协调工具、记忆和运行时上下文。在这一视角下，智能体与技能扮演互补角色：智能体负责高层级推理与规划，而技能构成操作执行层，使可靠、可复用且可组合的执行成为可能。因此，技能对于现代智能体系统的可扩展性、鲁棒性和可维护性至关重要。

我们围绕智能体技能生命周期的四个阶段——表示、获取、检索与演化——组织相关文献，并综述每个阶段中的代表性方法、生态系统资源和应用场景。最后，我们讨论质量控制、互操作性、安全更新以及长期能力管理方面的开放挑战。所有相关资源，包括研究论文、开源数据和项目，均已整理并面向社区发布于：https://github.com/JayLZhou/Awesome-Agent-Skills

1.引言

基于大语言模型（LLM）的智能体正在成为自动化复杂任务的一种强大范式。从根本上说，基于 LLM 的智能体是一类自主系统，其利用 LLM 作为认知引擎来感知环境、理解任务上下文、围绕抽象目标进行推理，并通过规划、工具使用、记忆检索和结构化交互来执行动作 [1]–[6]。近期的一些开创性系统，如 OpenClaw [7]、Manus [8] 和 Claude Code [9]，生动体现了这一范式，标志着智能系统正在发生更广泛的转变：从被动式响应生成转向主动的、面向行动的任务执行。随着基于 LLM 的智能体被部署到越来越多的场景中，并被委以日益复杂的任务，工具增强已成为一种核心设计原则。这一原则由 API、插件以及 MCP 等协议层所支撑 [10], [11]。然而，实践经验表明，仅仅能够访问工具，并不能决定何时应调用某项能力、应如何协调多个工具、应如何处理失败，或应如何验证输出。随着任务变得更加长程且异构，依赖智能体针对每个任务都从零开始推导这些过程性步骤，会导致严重的脆弱性、高延迟和不可靠性。这一“过程性鸿沟”已成为一个主要瓶颈。这一鸿沟推动了智能体系统向以技能为中心的视角发生根本转变。在本综述中，我们将智能体技能定义为可复用的过程性工件，它们编码了在具体约束下协调工具、记忆和运行时上下文的特定“如何做”知识 [12]–[14]。在这一框架内，智能体与技能形成了一种高度协同的层次关系：智能体充当高层级认知规划器，负责意图解释和目标分解；而技能则构成关键的操作执行层，将这些抽象计划转化为稳健的低层级执行。技能的重要性在于其作为智能体“肌肉记忆”的角色。通过将过程性诀窍外化为可复用工件，技能使智能体能够绕过冗余的逐步推理，大幅减少执行错误，并将瞬时动作转化为持久能力，使其能够在重复任务中被轻松检索、组合、修订和治理。更广泛地说，将经验积累为可复用技能，是人类学习中长期存在的一种模式。人们并不会从零开始解决每一个任务；相反，他们会逐步将重复实践、示范、失败和专家指导转化为可复用流程。如图 1 所示，这一外化过程可以被视为一条漫长的发展轨迹：从具身的手工技艺知识，到成文的工程流程，再到数字工具和可编程工作流，直至如今的智能体原生技能生态系统。在这一背景下，近来的 LLM 时代使以技能为中心的智能体成为一个快速增长的研究领域。图 2 展示了从 2023 年 4 月到 2026 年 4 月代表性论文数量的快速增长。与此同时，相关进展分散在多个研究脉络中：从人类专业知识、轨迹、任务和语料中获取技能 [12]–[14]；从大规模且异构的技能库中进行检索 [15]–[17]；在状态和预算约束下进行运行时选择与组合 [5], [6], [18]；以及部署后的修订、演化和治理 [19], [20]。这种碎片化现状促使我们有必要对智能体技能及以技能为中心的智能体生态系统进行聚焦且系统的综述。为满足这一需求，本文对智能体技能和以技能为中心的 LLM 智能体生态系统进行了聚焦且系统的回顾。我们围绕四个生命周期模块组织相关文献：技能表示、技能获取、技能检索和技能演化。除方法分类之外，我们还回顾了代表性的生态系统资源和应用场景，并综合讨论了质量控制、安全性、成本、互操作性、维护以及长期能力治理方面的开放挑战。总之，本文的贡献如下：

我们将智能体技能识别为现代 LLM 智能体生态系统的基础性组成部分，明确刻画其与智能体之间的关系，并阐明其在弥合原始工具访问与稳健任务执行之间“过程性鸿沟”方面的关键作用。
我们围绕四个核心生命周期阶段——技能表示、技能获取、技能检索和技能演化——组织现有关于智能体技能的研究，并回顾每个阶段中的代表性方法。
我们总结了代表性的智能体技能平台、应用场景和开放挑战。
我们概述了智能体技能的有前景研究方向。

本文其余部分组织如下。第 II 节介绍核心概念和形式化预备知识。第 III 节给出本文采用的技能分类体系。第 IV、V 和 VI 节分别讨论技能获取、技能检索和技能演化。第 X 节讨论相关工作。最后，第 VIII 节和第 XI 节分别概述未来方向并总结全文。

Preliminaries / 预备知识

本节介绍技能中心LLM智能体生态系统的基础知识，包括智能体定义、过程化鸿沟、从工具到技能的转变、形式化定义及生态概览。图1展示了技能的历史演变：从具身人类生存和手工艺，到工程、工业、数字时代，再到智能体时代的技能系统。图2显示了2023年4月至2026年4月智能体技能研究的快速增长，累计论文数量及示例系统。图3为本综述提出的智能体技能分类框架。图 3：本综述中的智能体技能分类法。来源：原论文 PDF 第 4 页。

LLM-Based Agents / 基于LLM的智能体

LLM智能体是以语言模型为核心推理引擎的系统，通过感知–推理–行动循环与环境交互。其区别于独立LLM的关键在于行动能力：查询外部系统、调用工具、执行代码、协调其他智能体。

Agent Knowledge and the Procedural Gap / 智能体知识与过程化鸿沟

智能体行为依赖两类知识：被动知识（预训练参数中吸收的静态先验）和主动知识（运行时从环境获取的动态信息）。主动知识虽然动态，但获取本身不决定何时用、如何用。技能将过程化知识打包为可复用的过程化产物，弥合这一鸿沟。

From Tool Skills to Agent Skills / 从工具技能到智能体技能

工具增强使外部能力可用，但工具暴露的是原子能力而非如何用。技能增强出现于研究者认识到协调问题后。模型上下文协议（MCP）解决互操作问题，而技能解决过程化问题，将多次工具调用组织为稳健工作流。

Skills: Definition and Formalization / 技能的定义与形式化

定义1（智能体技能）：技能是具有有限范围的可复用过程化产物，外部化任务焦点知识：不仅包括“做什么”，还包括“何时行动”“如何执行”“哪些启发式和故障模式”“如何判断完成”。形式化上，技能建模为元组 (S = (M, R, C))，其中 (M) 是根指令文档，(R) 是辅助资源集（参考文档、模板、可执行脚本等），(C) 是适用条件（元数据、自然语言描述或嵌入）。代表性技能平台如SkillNet（30万+）、ClawHub（4万+）、SkillHub（8万+）、SkillsMP（70万+）、Skills.sh（9万+）。

The Ecosystem of Agent Skills / 智能体技能生态系统

智能体系统应理解为生态系统而非孤立推理模块。技能可从演示、痕迹、文档或反馈中创建；在仓库中索引；在任务、延迟或预算约束下检索和选择；与工具、记忆和其他智能体共同执行；随后因环境变化而修订、验证或退役。图3展示了本综述从生命周期视角组织的分类体系。

Skill Representation / 技能表示

技能由主要文档 (M)、辅助资源 (R) 和触发条件 (C) 组成。关键在于 (R) 的配置方式。根据资源类型，将技能分为三类。

Taxonomy by Resource Configuration / 按资源配置分类

# Text-backed skills / 文本支持技能

(R) 由文本组成，如参考、示例、模板、评分规则或模式。改善接地性和复用性，无可执行依赖。

# Code-backed skills / 代码支持技能

(R) 由可执行制品组成，如脚本、辅助函数、笔记本或包装器。支持可重复子任务和强操作确定性，但带来版本、测试和依赖管理成本。

# Hybrid-resource skills / 混合资源技能

(R) 同时包含文本和可执行制品，旨在保留可解释性同时支持确定性执行。协调负担最高，需维护文档、代码及其绑定的致性。

Comparison and Summary / 比较与总结

三种配置差异不在于 (M) 的存在，而在于周围资源。文本改善理解，代码改善执行可靠性，混合追求两者但复杂度更高。在生态系统尺度上，该分类影响技能索引、验证、维护和编排方式。

Skill Acquisition / 技能获取

技能获取是构建或生成新技能的过程。按主要来源分为四类。图5总结了技能获取方法全景。图4给出了四个代表性智能体技能示例：文献综述技能、代码修复技能、旅行规划技能和异常调查技能，每个技能由多个步骤组成，涉及推理、工具调用或外部资源交互。图 4：智能体技能的示例说明。来源：原论文 PDF 第 5 页。

Human-Derived Acquisition / 人类衍生获取

直接从领域专家获取。专家编写可复用规程，定义意图范围，附加支持材料。精度高（编码隐性判断、约定和安全关键规则），但可扩展性差。图6展示了SkillsMP上人类衍生技能随时间累积的增长趋势，反映更多领域专家设计的技能被纳入智能体平台。

Experience-Derived Acquisition / 经验衍生获取

将智能体过去执行痕迹（轨迹、示例、交互历史、反馈）作为原材料，提炼可复用技能。主要处理操作包括：

选择筛选成功信息性轨迹。如Voyager保留成功具身轨迹；SkillCraft在工具使用场景中筛选有用轨迹。
抽象与总结 将具体轨迹压缩为可复用知识单元（教训、启发式、声明性指导）。如Reflexion从失败中提取矫正规则；ExpeL抽象高阶教训；Buffer of Thoughts蒸馏推理模板；FINCON提取金融决策见解；Trace2Skill将局部教训层级式整合为显式技能。
记忆组织 将累积经验重组为持久结构化记忆。如Think-in-Memory集成反思更新；G-Memory构建层级记忆图；Nemori将对话历史蒸馏为语义记忆；Intrinsic Memory维护结构化上下文记忆。
程序性归纳与打包 将成功执行转化为工作流、API或可执行模块。如Agent Workflow Memory从交互痕迹归纳工作流技能；JARVIS-1、Synapse、PolySkill将经验打包为程序性技能。

表II按处理操作组织代表性经验衍生方法。

Task-Derived Acquisition / 任务衍生获取

直接从当前任务需求构建技能。任务触发生成：LLM或合成模块提出候选工作流/脚本，执行结果决定丢弃、修订或保留。如CREATOR根据任务生成可调用工具；ToolMakers分离技能创建与使用；Cradle和CodeAct合成过程化制品；SkillWeaver从网页交互发现API式技能并逐步精化。

Corpus-Derived Acquisition / 语料衍生获取

从外部文本或结构化资源（文档、软件仓库、数据集、界面痕迹、知识库）蒸馏可复用技能。如AppAgent从界面结构提取过程化信号；AutoGuide从外部知识源推导上下文感知指导；HuggingGPT和ToolLLM从模型卡和API描述编译过程化指导；DS-Agent从Kaggle竞赛资源挖掘重复解题模式。

Discussion / 讨论

四类获取不是竞争关系而是互补。人类衍生提供语义精度和高信任；经验衍生提供行为基础和多样性；任务衍生提供响应性；语料衍生提供可扩展冷启动覆盖。LLM作为共同催化剂降低技能创建、转换和维护成本。

Skill Retrieval / 技能检索

随着技能仓库增大，瓶颈从获取转向访问。技能使用分为两个阶段：检索（将大型技能池缩减为候选集）和选择（确定最终调用的技能）。图7展示了检索与选择流程。

Skill Retrieval / 检索方法

# Dense Embedding Retrieval / 稠密嵌入检索

将任务和技能映射到共享嵌入空间，按向量相似性检索。Voyager为经典示例；SAGE、AutoSkill、MemSkill延续此模式。适用于任务表述灵活的场景。

# Sparse and Keyword Retrieval / 稀疏与关键词检索

通过显式符号字段和元数据匹配。SAGE的Query N-gram变体、SkillWeaver的接口描述筛选、AutoSkill和Memento-Skills的符号匹配均为实例。在稳定命名或接口字段时更可靠。

# Generative Retrieval / 生成式检索

将候选召回视为标识符生成，模型解码时直接产生工具/技能ID。ToolGen最明确；ToolLLM提供相关但松散示例。

# Structure-Aware Retrieval / 结构感知检索

利用技能库内部组织指导召回。包括层级检索（如SkillRL、AgentSkillOS通过层级缩小搜索空间）和依赖感知检索（如SkillWeaver的预处理、CUA-Skill的兼容性检查、ToolExpNet的依赖关系）。

# discussion / 讨论

技能检索不是单一匹配问题，而是在语义灵活性、符号精度和结构可执行性之间的权衡。密集检索适合开放自然语言，稀疏检索适合精确名称，生成式检索模糊边界，结构感知适合组成空间。

Skill Selection / 选择方法

# Context-aware dynamic selection / 上下文感知动态选择

根据当前观察、子目标和交互历史在线调整选择。AutoGuide选择上下文条件指导；MemSkill和Memento-Skills根据演化技能库动态路由。

# Skill Composition / 技能组合

选择并组织多个技能形成序列或工作流。SkillWeaver、AWM、ASI将API或工作流作为可组合单元；AgentSkillOS和CUA-Skill显式形式化编排结构。

# Cost & Utility-aware selection / 成本与效用感知选择

考虑预期收益与成本、风险或副作用。MemSkill、Memento-Skills的路由受下游效用影响；SkillOrchestra根据技能需求、预期能力和部署成本路由；SkillsBench显示即使精选技能也可能对某些任务有负效用。

# Feedback-driven reranking / 反馈驱动重排序

利用历史执行信号重新排序候选。SkillRL和CUA-Skill的执行结果改变后续优先顺序；ToolExpNet、ExpeL、SMART通过反馈调整偏好排序。

# discussion / 讨论

技能选择是策略问题而非最终排序步骤。上下文感知强调状态适应；组合强调协调；成本感知强调效用权衡；反馈驱动强调学习。这些维度不互斥，实际系统常组合使用。

Design Dimensions in Retrieval and Selection / 检索与选择的设计维度

表示视角 技能表示决定检索和选择可用的信号。纯文本暴露语义和词汇线索；纯代码需额外名称或摘要；混合技能兼具语义描述和执行相关结构。
状态与适用性 状态连接检索与选择。技能可能相关但不可用，需经过前提或依赖检查。
粒度与组合 粒度从单原语技能到工作流记忆或可组合技能组。检索对象粒度决定选择是路由问题还是装配问题。
目标、反馈与评估 选择不仅关注相关性，还需考虑效用、可靠性、执行负担。反馈更新后续偏好。评估需连接候选质量、执行结果、成本效率和反馈适应。

Skill Evolution / 技能演化

技能演化关注已形成技能制品的修订、验证、优化、共享和治理。图8显示从人类技能精化到智能体技能演化的类比；图9给出制品级精化过程。

Skill Revision / 技能修订

反馈修改持久技能对象，系统决定修改是否保留。EvoSkill对失败执行决定精化或创建新技能，并需通过保留验证部署。Memento-Skills通过单元测试门和回滚步骤使修订可逆。AutoSkill通过SKILL.md的添加、合并或丢弃实现纵向修订。XSkill在多模态智能体中维护技能文档并随使用历史更新。

Skill Validation / 技能验证

修订后的技能须通过检查才被信任。SkillWeaver通过实践和生成测试验证网页技能；Agent Skill Induction以可执行性为边界；TroVE通过执行一致性修剪工具箱；Programmatic Skill Networks引入失败定位、成熟度门和回滚验证；Audited Skill-Graph仅当支持验证报告才将候选技能提升至有向图。

Policy Coupling / 策略耦合

让验证后的技能和控制策略共同适应。SkillRL将技能库与控制器同步更新；ARISE在共享技能中汇总经验并调整控制策略。

Repository Evolution / 仓库演化

接受更新后，技能仓库需索引和同步。Uni-Skill统一不同技能表示；SkillX支持版本控制；SkillNet和SkillClaw管理大规模仓库演变。

Runtime Governance / 运行时治理

在运行时检索候选技能、路由执行、应用信任检查、淘汰不安全或过时技能。SkillRouter进行动态路由；PoisonedSkills研究针对技能库的投毒攻击，突显治理重要性。

Discussion / 讨论

技能演化从简单修订走向闭环系统：修订→验证→策略耦合→仓库演化→运行时治理→反馈回到修订。表IV按子类比较了制品改变方法。

Open Challenges / 开放挑战

Skill Acquisition / 技能获取

技能质量控制：如何确保衍生的技能可靠、可重复且无有害副作用。
互操作性：不同平台/系统间技能格式的兼容性。
从异构来源获取技能的鲁棒性与可审计性。

Skill Retrieval / 技能检索

大规模仓库中的检索效率与准确率平衡。
状态和约束感知的精细检索。
跨语言和跨模态技能检索。

Skill Evolution / 技能演化

安全更新：确保技能修改不引入风险。
长期能力管理：持续维护和治理大规模技能库。
演化过程中的版本控制与回滚保障。

Future Research Directions / 未来研究方向

论文指出未来方向包括：建立统一的技能表示标准；开发跨平台互操作框架；设计可证明安全的技能更新机制；探索终身技能学习与记忆；将技能与多智能体协作深度整合；以及面向复杂环境的技能自动生成与验证。

Application Scenarios / 应用场景

技能已在多个领域展示价值：软件开发与代码修复（如SWE-agent）、数据科学（DS-Agent）、网页代理（SkillWeaver）、具身控制（Voyager）、金融分析（FINCON）、医疗诊断、客户服务等。技能作为可复用过程化产物，显著提升了智能体在专业领域和长程任务中的可靠性和效率。

现有综述涵盖工具增强、智能体记忆、技能学习等方向，但缺乏专门针对智能体技能全生命周期的系统性梳理。本文聚焦于技能表示、获取、检索、演化四个阶段，与工具学习、少样本学习、程序合成和知识蒸馏等领域相关但侧重不同。

Conclusion / 结论

本文定义了智能体技能，围绕其生命周期组织了代表性研究。技能是构建可扩展、鲁棒、可维护智能体系统的核心。通过外部化过程化知识，技能使智能体摆脱从头推理的脆弱性，实现可靠、可复用、可组合的执行。尽管在质量控制、互操作性、安全更新和长期能力管理方面仍有开放挑战，智能体技能已成为现代LLM智能体生态不可或缺的基础组件。

成为VIP会员查看完整内容