Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments - 专知论文

会员服务 ·

0

语言模型 · 智能体 · API · 泛化 · 泛化能力 ·

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

翻译：智能体技能框架：小规模语言模型在工业环境中的潜力透视

Yangjie Xu,Lujun Li,Lama Sleem,Niccolo Gentile,Yewei Song,Yiqun Wang,Siming Ji,Wenbo Wu,Radu State

Agent Skill framework, now widely and officially supported by major players such as GitHub Copilot, LangChain, and OpenAI, performs especially well with proprietary models by improving context engineering, reducing hallucinations, and boosting task accuracy. Based on these observations, an investigation is conducted to determine whether the Agent Skill paradigm provides similar benefits to small language models (SLMs). This question matters in industrial scenarios where continuous reliance on public APIs is infeasible due to data-security and budget constraints requirements, and where SLMs often show limited generalization in highly customized scenarios. This work introduces a formal mathematical definition of the Agent Skill process, followed by a systematic evaluation of language models of varying sizes across multiple use cases. The evaluation encompasses two open-source tasks and a real-world insurance claims data set. The results show that tiny models struggle with reliable skill selection, while moderately sized SLMs (approximately 12B - 30B) parameters) benefit substantially from the Agent Skill approach. Moreover, code-specialized variants at around 80B parameters achieve performance comparable to closed-source baselines while improving GPU efficiency. Collectively, these findings provide a comprehensive and nuanced characterization of the capabilities and constraints of the framework, while providing actionable insights for the effective deployment of Agent Skills in SLM-centered environments.

翻译：智能体技能框架目前得到GitHub Copilot、LangChain和OpenAI等主流平台的广泛官方支持，该框架通过改进上下文工程、减少幻觉现象并提升任务准确性，在专有模型上表现尤为突出。基于这些观察，本研究旨在探究智能体技能范式能否为小规模语言模型带来类似优势。该问题在工业场景中具有重要意义，因为这类场景往往因数据安全和预算限制而无法持续依赖公共API，且小规模语言模型在高度定制化场景中常表现出有限的泛化能力。本文首先提出了智能体技能过程的正式数学定义，随后系统评估了不同规模的语言模型在多种用例中的表现。评估涵盖两项开源任务和一个真实世界的保险理赔数据集。结果表明，微型模型在可靠技能选择方面存在困难，而中等规模的小型语言模型（约12B-30B参数）则能从智能体技能方法中显著获益。此外，约80B参数的代码专用变体在达到闭源基线可比性能的同时，还提升了GPU效率。总体而言，这些发现全面而细致地刻画了该框架的能力与局限，同时为在以小规模语言模型为中心的环境中有效部署智能体技能提供了可操作的见解。

0

相关内容

语言模型

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

34+阅读 · 4月19日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

运用小型语言模型解锁战术边缘人工智能优势

运用小型语言模型解锁战术边缘人工智能优势

专知会员服务

31+阅读 · 2025年9月7日

【EPFL博士论文】大型语言模型时代的协作式智能体

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

35+阅读 · 2025年5月16日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

64+阅读 · 2025年3月25日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

60+阅读 · 2024年9月6日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Arxiv

0+阅读 · 3月17日

A Survey on the Optimization of Large Language Model-based Agents

Arxiv

0+阅读 · 2月24日

Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

Arxiv

0+阅读 · 2月23日

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

Arxiv

0+阅读 · 2月20日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality

Arxiv

0+阅读 · 2月8日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

26+阅读 · 2023年12月19日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

5+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

4+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

5+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

34+阅读 · 4月19日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

运用小型语言模型解锁战术边缘人工智能优势

运用小型语言模型解锁战术边缘人工智能优势

专知会员服务

31+阅读 · 2025年9月7日

【EPFL博士论文】大型语言模型时代的协作式智能体

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

35+阅读 · 2025年5月16日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

64+阅读 · 2025年3月25日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

基于大型语言模型的软件工程智能体综述

基于大型语言模型的软件工程智能体综述

专知会员服务

60+阅读 · 2024年9月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

资深算法工程师万宫玺：Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 分享总结

AI研习社

11+阅读 · 2018年1月4日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Arxiv

0+阅读 · 3月17日

A Survey on the Optimization of Large Language Model-based Agents

Arxiv

0+阅读 · 2月24日

Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

Arxiv

0+阅读 · 2月23日

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

Arxiv

0+阅读 · 2月20日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

Agent Skills: A Data-Driven Analysis of Claude Skills for Extending Large Language Model Functionality

Arxiv

0+阅读 · 2月8日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

26+阅读 · 2023年12月19日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员