Open Agent Specification (Agent Spec) is a declarative language for defining AI agents and workflows in a way that is compatible across different AI frameworks, promoting portability and interoperability within AI Agent frameworks. Agent Spec aims to resolve the challenges of fragmented agent development by providing a common unified specification that allows AI agents to be designed once and deployed across various frameworks, improving interoperability and reusability, while reducing redundant efforts. Additionally, Agent Spec facilitates development tools and portability, allowing AI agents to be defined independently of their execution environment and enabling teams to exchange solutions without implementation-specific limitations. Agent Spec benefits four key groups: (i) Agent developers, who gain a superset of reusable components and design patterns, enabling them to leverage a broader range of functionalities; (ii) Agent framework and tool developers, who can use Agent Spec as an interchange format and therefore benefit from cross-framework and tool support; (iii) Researchers, who can achieve reproducible results and comparability, facilitating more reliable and consistent outcomes; (iv) Enterprises, which see faster prototype-to-deployment, increased productivity, and greater scalability and maintainability for their AI agent solutions. This technical report provides an overview of the technical foundations of Agent Spec, including motivation, benefits, and future work. We also introduce a standardized Evaluation harness to assess agent behavior and agentic workflows across runtimes (LangGraph, CrewAI, AutoGen, and WayFlow), using three different benchmarks (SimpleQA Verified, $\tau^2$-Bench and BIRD-SQL) - analogous to how HELM and related harnesses standardized LLM evaluation - so that performance, robustness, and efficiency can be compared consistently across frameworks.


翻译:开放智能体规范(Agent Spec)是一种声明式语言,用于定义人工智能智能体与工作流,其设计兼容不同的人工智能框架,旨在促进人工智能智能体框架间的可移植性与互操作性。Agent Spec 致力于解决智能体开发碎片化带来的挑战,通过提供一种统一的标准规范,使得人工智能智能体能够一次设计、跨多种框架部署,从而提升互操作性与复用性,同时减少重复开发工作。此外,Agent Spec 支持开发工具与可移植性,允许人工智能智能体独立于其执行环境进行定义,使团队能够在不受具体实现限制的情况下交换解决方案。Agent Spec 为四类关键群体带来益处:(i)智能体开发者:获得可复用组件与设计模式的超集,能够利用更广泛的功能;(ii)智能体框架与工具开发者:可将 Agent Spec 用作交换格式,从而受益于跨框架与工具的支持;(iii)研究人员:能够实现可复现的结果与可比性,有助于获得更可靠、一致的研究成果;(iv)企业:能够加速从原型到部署的进程,提升生产力,并增强其人工智能智能体解决方案的可扩展性与可维护性。本技术报告概述了 Agent Spec 的技术基础,包括其动机、优势与未来工作方向。我们还引入了一个标准化的评估工具集,用于评估跨运行时(LangGraph、CrewAI、AutoGen 和 WayFlow)的智能体行为与智能工作流,该工具集采用三种不同的基准测试(SimpleQA Verified、$\\tau^2$-Bench 和 BIRD-SQL)——类似于 HELM 及相关工具集对大型语言模型评估的标准化方式——从而能够在不同框架间一致地比较性能、鲁棒性与效率。

0
下载
关闭预览

相关内容

AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
ICML 2025 关于语言模型机械可解释性的教程
专知会员服务
18+阅读 · 2025年7月25日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
27+阅读 · 2023年3月17日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
RNN | RNN实践指南(2)
KingsGarden
19+阅读 · 2017年5月4日
相关论文
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
27+阅读 · 2023年3月17日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员