Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale - 专知论文

会员服务 ·

0

系统 · 基准 · 基准测试 · 包含 · DAG ·

Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale

翻译：面向生态系统规模的智能体技能组织、编排与基准测试

Hao Li,Chunjiang Mu,Jianhao Chen,Siyue Ren,Zhiyao Cui,Yiqun Zhang,Lei Bai,Shuyue Hu

The rapid proliferation of Claude agent skills has raised the central question of how to effectively leverage, manage, and scale the agent skill ecosystem. In this paper, we propose AgentSkillOS, the first principled framework for skill selection, orchestration, and ecosystem-level management. AgentSkillOS comprises two stages: (i) Manage Skills, which organizes skills into a capability tree via node-level recursive categorization for efficient discovery; and (ii) Solve Tasks, which retrieves, orchestrates, and executes multiple skills through DAG-based pipelines. To evaluate the agent's ability to invoke skills, we construct a benchmark of 30 artifact-rich tasks across five categories: data computation, document creation, motion video, visual design, and web interaction. We assess the quality of task outputs using LLM-based pairwise evaluation, and the results are aggregated via a Bradley-Terry model to produce unified quality scores. Experiments across three skill ecosystem scales (200 to 200K skills) show that tree-based retrieval effectively approximates oracle skill selection, and that DAG-based orchestration substantially outperforms native flat invocation even when given the identical skill set. Our findings confirm that structured composition is the key to unlocking skill potential. Our GitHub repository is available at:https://github.com/ynulihao/AgentSkillOS.

翻译：Claude智能体技能的快速涌现提出了一个核心问题：如何有效利用、管理和扩展智能体技能生态系统。本文提出AgentSkillOS，这是首个面向技能选择、编排及生态系统级管理的原则性框架。AgentSkillOS包含两个阶段：(i) 技能管理阶段，通过节点级递归分类将技能组织为能力树以实现高效发现；(ii) 任务解决阶段，通过基于有向无环图（DAG）的流程对多个技能进行检索、编排与执行。为评估智能体调用技能的能力，我们构建了一个包含30项丰富产出的任务基准测试集，涵盖五大类别：数据计算、文档创建、动态视频、视觉设计与网页交互。我们采用基于大语言模型的成对评估方法对任务输出质量进行评判，并通过Bradley-Terry模型聚合结果以生成统一质量评分。在三种技能生态系统规模（200至20万项技能）上的实验表明：基于树的检索方法能有效逼近理想技能选择效果，且即使在给定相同技能集的情况下，基于DAG的编排方式也显著优于原生扁平化调用方式。我们的研究证实结构化组合是释放技能潜力的关键。项目GitHub仓库地址为：https://github.com/ynulihao/AgentSkillOS。

0

相关内容

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程的发展现状

智能体工程的发展现状

专知会员服务

26+阅读 · 1月4日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

22+阅读 · 2025年12月12日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

42+阅读 · 2025年10月17日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

97+阅读 · 2017年9月18日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

初级组装体的模块化组装、功能集成与仿生应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis

Arxiv

0+阅读 · 5月1日

Skill Retrieval Augmentation for Agentic AI

Arxiv

0+阅读 · 4月27日

SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Arxiv

0+阅读 · 4月6日

SkillRouter: Skill Routing for LLM Agents at Scale

Arxiv

0+阅读 · 3月31日

Dynamic Dual-Granularity Skill Bank for Agentic RL

Arxiv

0+阅读 · 3月30日

SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration

Arxiv

0+阅读 · 3月22日

Memento-Skills: Let Agents Design Agents

Arxiv

0+阅读 · 3月19日

Malicious Or Not: Adding Repository Context to Agent Skill Classification

Arxiv

0+阅读 · 3月17日

Toward an Agentic Infused Software Ecosystem

Arxiv

0+阅读 · 2月24日

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

6+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

2+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

1+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

1+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

9+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程的发展现状

智能体工程的发展现状

专知会员服务

26+阅读 · 1月4日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

迈向智能体系统规模化的科学

迈向智能体系统规模化的科学

专知会员服务

22+阅读 · 2025年12月12日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

42+阅读 · 2025年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

97+阅读 · 2017年9月18日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis

Arxiv

0+阅读 · 5月1日

Skill Retrieval Augmentation for Agentic AI

Arxiv

0+阅读 · 4月27日

SkillX: Automatically Constructing Skill Knowledge Bases for Agents

Arxiv

0+阅读 · 4月6日

SkillRouter: Skill Routing for LLM Agents at Scale

Arxiv

0+阅读 · 3月31日

Dynamic Dual-Granularity Skill Bank for Agentic RL

Arxiv

0+阅读 · 3月30日

SkillProbe: Security Auditing for Emerging Agent Skill Marketplaces via Multi-Agent Collaboration

Arxiv

0+阅读 · 3月22日

Memento-Skills: Let Agents Design Agents

Arxiv

0+阅读 · 3月19日

Malicious Or Not: Adding Repository Context to Agent Skill Classification

Arxiv

0+阅读 · 3月17日

Toward an Agentic Infused Software Ecosystem

Arxiv

0+阅读 · 2月24日

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

Arxiv

0+阅读 · 2月20日

相关基金

初级组装体的模块化组装、功能集成与仿生应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员