SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents - 专知论文

会员服务 ·

0

Skills · Agent · 蒸馏 · 大语言模型 · 控制器 ·

SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

翻译：暂无翻译

Yifan Zhou,Zhentao Zhang,Ziming Cheng,Shuo Zhang,Qizhen Lan,Zhangquan Chen,Zhi Yang, QianyuXu,Ronghao Chen,Huacan Wang,Sen Hu

As LLM agents are increasingly built around reusable skills, a central challenge is no longer only whether agents can use provided skills, but whether they can generate correct, reusable, and executable skills from repositories and documents. Existing benchmarks primarily evaluate the efficacy of given skills or the ability of agents to solve downstream tasks from raw context, but they do not isolate skill generation itself as the object of study. We introduce SkillGenBench, a benchmark for evaluating skill generation pipelines under a unified and controlled protocol. In SkillGenBench, a generator receives raw corpora and produces standardized skill artifacts, which are then executed under fixed harnesses and assessed with unified evaluation procedures. The benchmark covers two generation regimes: task-conditioned generation, where a task-specific skill is synthesized after the task is revealed, and task-agnostic generation, where a reusable skill library must be distilled before downstream tasks are known. It also spans two complementary procedural sources: repository-grounded instances, where procedures are distributed across code, configuration, and scripts, and document-grounded instances, where procedures and constraints must be distilled from long-form text. We provide standardized task specifications, pinned environments, and evaluation protocols centered on deterministic execution-based checks, supplemented by auxiliary signals for diagnosis. Experiments across a range of skill-generation methods and backbones show substantial performance variation, highlight the difficulty of reusable skill distillation, and reveal distinct failure modes in skill generation from software repositories versus long-form documents. SkillGenBench establishes a reproducible testbed for studying skill generation as an independent research problem in agent systems.

翻译：暂无翻译

0

相关内容

Skills

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

美陆军新型AI/LLM工具：提升作战效能

美陆军新型AI/LLM工具：提升作战效能

专知会员服务

23+阅读 · 2025年8月3日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

【新书】构建用于生产的LLM：通过提示、微调和RAG提升LLM的能力和可靠性，567页pdf

【新书】构建用于生产的LLM：通过提示、微调和RAG提升LLM的能力和可靠性，567页pdf

专知会员服务

93+阅读 · 2024年6月27日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

PaperWeekly

19+阅读 · 2023年4月13日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

优质中文NLP资源集合，做项目一定用得到！

优质中文NLP资源集合，做项目一定用得到！

数据派THU

18+阅读 · 2019年3月3日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

人Muse细胞诱导分化为神经前体细胞及功能性神经元并修复脊髓损伤

国家自然科学基金

0+阅读 · 2015年12月31日

基于管制通话语音个体特征的管制员不良工作状态识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

周期性手工装配作业肌肉疲劳预测建模与其装配质量改善

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

Benign in Isolation, Harmful in Composition: Security Risks in Agent Skill Ecosystems

Arxiv

0+阅读 · 6月13日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents

Arxiv

0+阅读 · 6月2日

Skill Is Not Document: A Query-Conditional Benchmark and Two-Stage Retriever for LLM Agent Skill Routing

Arxiv

0+阅读 · 6月2日

SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

Arxiv

0+阅读 · 5月28日

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Arxiv

0+阅读 · 5月25日

Toward User Comprehension Supports for LLM Agent Skill Specifications

Arxiv

0+阅读 · 5月19日

SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces

Arxiv

0+阅读 · 5月12日

SkillOS: Learning Skill Curation for Self-Evolving Agents

Arxiv

0+阅读 · 5月7日

AgenTEE: Confidential LLM Agent Execution on Edge Devices

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

2+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

3+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

2+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

2+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

2+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

2+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

1+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

美陆军新型AI/LLM工具：提升作战效能

美陆军新型AI/LLM工具：提升作战效能

专知会员服务

23+阅读 · 2025年8月3日

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

【新书】构建用于生产的LLM：通过提示、微调和RAG提升LLM的能力和可靠性，567页pdf

【新书】构建用于生产的LLM：通过提示、微调和RAG提升LLM的能力和可靠性，567页pdf

专知会员服务

93+阅读 · 2024年6月27日

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

《大型语言模型（LLMs）: 训练到推理》全面概述技术细节

专知会员服务

126+阅读 · 2024年1月5日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【白皮书】从头训练大型语言模型LLM最佳实践

【白皮书】从头训练大型语言模型LLM最佳实践

专知会员服务

150+阅读 · 2023年8月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

硬核课程全网首发！高级人工智能：多模态大模型LLM与AIGC前沿技术实战

PaperWeekly

19+阅读 · 2023年4月13日

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

这套1600赞的NLP课程已开放，面向实战，视频代码都有丨资源

量子位

15+阅读 · 2019年7月9日

20项任务全面碾压BERT，全新XLNet预训练模型

20项任务全面碾压BERT，全新XLNet预训练模型

机器学习算法与Python学习

15+阅读 · 2019年6月20日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

优质中文NLP资源集合，做项目一定用得到！

优质中文NLP资源集合，做项目一定用得到！

数据派THU

18+阅读 · 2019年3月3日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Benign in Isolation, Harmful in Composition: Security Risks in Agent Skill Ecosystems

Arxiv

0+阅读 · 6月13日

SkillResolve-Bench: Measuring and Resolving Same-Capability Ambiguity in Agent Skill Retrieval

Arxiv

0+阅读 · 6月9日

SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents

Arxiv

0+阅读 · 6月2日

Skill Is Not Document: A Query-Conditional Benchmark and Two-Stage Retriever for LLM Agent Skill Routing

Arxiv

0+阅读 · 6月2日

SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents

Arxiv

0+阅读 · 5月28日

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Arxiv

0+阅读 · 5月25日

Toward User Comprehension Supports for LLM Agent Skill Specifications

Arxiv

0+阅读 · 5月19日

SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces

Arxiv

0+阅读 · 5月12日

SkillOS: Learning Skill Curation for Self-Evolving Agents

Arxiv

0+阅读 · 5月7日

AgenTEE: Confidential LLM Agent Execution on Edge Devices

Arxiv

0+阅读 · 5月6日

相关基金

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

人Muse细胞诱导分化为神经前体细胞及功能性神经元并修复脊髓损伤

国家自然科学基金

0+阅读 · 2015年12月31日

基于管制通话语音个体特征的管制员不良工作状态识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

周期性手工装配作业肌肉疲劳预测建模与其装配质量改善

国家自然科学基金

0+阅读 · 2014年12月31日

面向人与Agent混合的多团队协作仿真训练方法研究

国家自然科学基金

19+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员