Agent skills -- structured, reusable knowledge artifacts that augment LLM agent capabilities -- have been rapidly adopted in industry, yet their cross-domain impact and use across commercial and open-source models remain under-studied, and no reusable methodology exists for evaluating an individual skill. In this work, we present an evaluation framework that lets a skill author construct realistic tasks to rigorously assess the aspects of a skill that matter most to them, and that estimates skill utility by solving those tasks. Further, we apply our evaluation approach at scale to 500 real-world skills, generating 1,000 tasks derived from the skills' content, along with instruction-following and goal-completion scoring rubrics. Using these metrics, we evaluate how 19 agent-model configurations, both proprietary and open-source, perform on the tasks. Our results show that models vary widely in how closely they adhere to the instructions encoded in skills, leading to substantial differences in their performance gains. Furthermore, we show that access to a skill significantly changes model behavior compared to the no-skill setup, providing an essential mechanism for encoding opinionated workflows into LLM agents. We release our evaluation dataset to support future work on agent skills.


翻译:智能体技能——即增强大语言模型(LLM)智能体能力的结构化、可复用知识构件——已在工业界得到快速应用,但其跨领域影响以及在商业与开源模型中的使用情况仍缺乏系统研究,目前也不存在用于评估单一技能的可复用方法论。本研究提出一个评估框架,允许技能开发者构建逼真任务,以严格评估技能中最关键的维度,并通过求解这些任务来估算技能的实用价值。在此基础上,我们将该评估方法规模化应用于500个真实技能,从技能内容中衍生出1000个任务,同时配套制定指令遵循度与目标完成度评分准则。利用这些指标,我们评估了19种智能体-模型配置(涵盖专有与开源模型)在任务上的表现。实验结果表明,不同模型在遵循技能所编码指令的程度上差异显著,这导致其性能增益呈现大幅分化。进一步,我们证明相较于无技能场景,技能接入会显著改变模型行为,从而为将固化工作流程编码至LLM智能体提供关键机制。我们已公开评估数据集,以支持未来关于智能体技能的研究工作。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员