We present Agent-Diff, a novel benchmarking framework for evaluating agentic Large Language Models (LLMs) on real-world tasks that execute code via external APIs. Agentic LLM performance varies due to differences in models, external tool access, prompt structures, and agentic frameworks. Benchmarks must make fundamental trade-offs between a sandboxed approach that controls for variation in software environments and more ecologically valid approaches employing real services. Agent-Diff attempts to capture the desirable features of both of these approaches by including access to the real API interfaces for software services while sandboxing the environment in which calls are made, processed, and evaluated. This approach relies on two key innovations. The first is a novel state-diff contract, which separates process from outcome - rather than fuzzy trace or parameter matching, we define task success as whether the expected change in environment state was achieved. The second is a novel sandbox that provides a standardized scripting layer that all models use to execute code against external APIs (Slack, Box, Linear, Google Calendar). Thus, we can evaluate different agentic LLMs against a standardized set of contracts using a unified sandbox while still evaluating their performance on real-world service interfaces. Using the Agent-Diff framework, we provide benchmarks for nine LLMs across 224 tasks utilizing enterprise software workflows. In addition, we evaluate the robustness of the framework with ablation experiments to assess the contribution of access to API documentation on benchmark performance. Code and data: https://github.com/agent-diff-bench/agent-diff.


翻译:本文提出Agent-Diff,一种用于评估大语言模型智能体在通过外部API执行代码的真实任务中表现的新型基准测试框架。大语言模型智能体的性能差异源于模型架构、外部工具访问能力、提示结构以及智能体框架设计等多方面因素。现有基准测试方法需要在控制软件环境变量的沙盒化方案与采用真实服务的生态效度更高方案之间进行根本性权衡。Agent-Diff通过同时具备真实软件服务API接口访问能力与沙盒化调用处理评估环境,尝试融合两种方案的优势特性。该框架依赖两项关键创新:首先是新颖的状态差异契约机制,将执行过程与结果分离——通过定义任务成功标准为预期环境状态变化是否实现,取代模糊的轨迹或参数匹配方法;其次是创新的沙盒系统,为所有模型提供标准化的脚本执行层,使其能够通过统一接口对Slack、Box、Linear、Google Calendar等外部API执行代码操作。基于此,我们能够在保持真实服务接口评估效度的同时,使用统一沙盒环境对不同大语言模型智能体进行标准化契约测试。利用Agent-Diff框架,我们对9个大语言模型在224个企业软件工作流任务中进行了系统性评估。此外,通过消融实验验证了框架的稳健性,量化分析了API文档访问权限对基准测试结果的影响。代码与数据:https://github.com/agent-diff-bench/agent-diff。

0
下载
关闭预览

相关内容

应用程序接口(简称 API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
中国AI Agent行业研究报告(二)
专知会员服务
47+阅读 · 2025年3月13日
Al Agent--大模型时代重要落地方向
专知会员服务
106+阅读 · 2024年4月8日
数字世界中的大模型Agent:机遇与风险
专知会员服务
60+阅读 · 2023年12月25日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关资讯
GitHub超9千星:一个API调用27个NLP预训练模型
新智元
17+阅读 · 2019年7月22日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员