MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers - 专知论文

会员服务 ·

0

工具 · 服务器 · 基准 · 工具使用 · 基准测试 ·

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers

翻译：MCP-Atlas：基于真实MCP服务器的大规模工具使用能力基准测试

Chaithanya Bandi,Ben Hertzberg,Geobio Boo,Tejas Polakam,Jeff Da,Sami Hassaan,Manasi Sharma,Andrew Park,Ernesto Hernandez,Dan Rambado,Ivan Salazar,Rafael Cruz,Chetan Rane,Ben Levin,Brad Kenstler,Bing Liu

The Model Context Protocol (MCP) is rapidly becoming the standard interface for Large Language Models (LLMs) to discover and invoke external tools. However, existing evaluations often fail to capture the complexity of real-world scenarios, relying on restricted toolsets, simplistic workflows, or subjective LLM-as-a-judge metrics. We introduce MCP-Atlas, a large-scale benchmark for evaluating tool-use competency, comprising 36 real MCP servers and 220 tools. It includes 1,000 tasks designed to assess tool-use competency in realistic, multi-step workflows. Tasks use natural language prompts that avoid naming specific tools or servers, requiring agents to identify and orchestrate 3-6 tool calls across multiple servers. We score tasks using a claims-based rubric that awards partial credit based on the factual claims satisfied in the model's final answer, complemented by internal diagnostics on tool discovery, parameterization, syntax, error recovery, and efficiency. Evaluation results on frontier models reveal that top models achieve pass rates exceeding 50%, with primary failures arising from inadequate tool usage and task understanding. We release the task schema, containerized harness, and a 500-task public subset of the benchmark dataset to facilitate reproducible comparisons and advance the development of robust, tool-augmented agents.

翻译：模型上下文协议（Model Context Protocol, MCP）正迅速成为大型语言模型（LLM）发现和调用外部工具的标准接口。然而，现有评估方法往往未能捕捉真实场景的复杂性，依赖于受限的工具集、简单化的工作流程或主观的LLM-as-a-judge评估指标。我们提出了MCP-Atlas，一个用于评估工具使用能力的大规模基准测试，包含36个真实的MCP服务器和220个工具。该基准包含1000个任务，旨在评估现实、多步骤工作流程中的工具使用能力。任务使用自然语言提示，避免提及特定工具或服务器名称，要求智能体识别并编排跨多个服务器的3-6次工具调用。我们采用基于声明的评分标准对任务进行评分，根据模型最终答案中满足的事实声明给予部分分数，并辅以对工具发现、参数化、语法、错误恢复和效率的内部诊断。对前沿模型的评估结果显示，顶级模型的通过率超过50%，主要失败原因在于工具使用不足和任务理解偏差。我们发布了任务模式、容器化测试框架以及包含500个任务的基准数据集公开子集，以促进可复现的比较，并推动开发鲁棒的工具增强智能体。

0

相关内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

44+阅读 · 2025年6月9日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何用好？亚马逊最新《大型语言模型(LLMs)实践：ChatGPT》综述，全面概述LLM模型、数据、任务的实战指南

大模型如何用好？亚马逊最新《大型语言模型(LLMs)实践：ChatGPT》综述，全面概述LLM模型、数据、任务的实战指南

专知会员服务

139+阅读 · 2023年4月27日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新！《工业互联网平台工业机理模型开发指南》国家标准意见稿

最新！《工业互联网平台工业机理模型开发指南》国家标准意见稿

专知

13+阅读 · 2022年7月10日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的MCSAR三维高分辨率快速成像研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大规模爆炸场数值模拟实时交互可视化软件

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

From Tool Orchestration to Code Execution: A Study of MCP Design Choices

Arxiv

0+阅读 · 2月17日

IntentMiner: Intent Inversion Attack via Tool Call Analysis in the Model Context Protocol

Arxiv

0+阅读 · 2月16日

MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents

Arxiv

0+阅读 · 2月15日

MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols

Arxiv

0+阅读 · 2月12日

Code2MCP: Transforming Code Repositories into MCP Services

Arxiv

0+阅读 · 2月11日

Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions

Arxiv

0+阅读 · 2月3日

Secure Tool Manifest and Digital Signing Solution for Verifiable MCP and LLM Pipelines

Arxiv

0+阅读 · 1月30日

MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics

Arxiv

0+阅读 · 1月30日

Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration

Arxiv

0+阅读 · 1月22日

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

最新内容

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

0+阅读 · 4分钟前

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

0+阅读 · 15分钟前

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

0+阅读 · 11分钟前

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

0+阅读 · 14分钟前

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

0+阅读 · 40分钟前

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

10+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

8+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

14+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

4+阅读 · 4月18日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

44+阅读 · 2025年6月9日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

50+阅读 · 2024年6月30日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

大模型如何用好？亚马逊最新《大型语言模型(LLMs)实践：ChatGPT》综述，全面概述LLM模型、数据、任务的实战指南

大模型如何用好？亚马逊最新《大型语言模型(LLMs)实践：ChatGPT》综述，全面概述LLM模型、数据、任务的实战指南

专知会员服务

139+阅读 · 2023年4月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】迈向基于基础先验的 4D 感知研究

全球高超音速武器最新发展趋势

澳大利亚发布《国防战略（2026年）》

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

最新！《工业互联网平台工业机理模型开发指南》国家标准意见稿

最新！《工业互联网平台工业机理模型开发指南》国家标准意见稿

专知

13+阅读 · 2022年7月10日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

【泡泡图灵智库】SGPN：用于3D点云实例分割的相似群建议网络（CVPR）

泡泡机器人SLAM

15+阅读 · 2019年1月21日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

From Tool Orchestration to Code Execution: A Study of MCP Design Choices

Arxiv

0+阅读 · 2月17日

IntentMiner: Intent Inversion Attack via Tool Call Analysis in the Model Context Protocol

Arxiv

0+阅读 · 2月16日

MCPShield: A Security Cognition Layer for Adaptive Trust Calibration in Model Context Protocol Agents

Arxiv

0+阅读 · 2月15日

MCPSecBench: A Systematic Security Benchmark and Playground for Testing Model Context Protocols

Arxiv

0+阅读 · 2月12日

Code2MCP: Transforming Code Repositories into MCP Services

Arxiv

0+阅读 · 2月11日

Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions

Arxiv

0+阅读 · 2月3日

Secure Tool Manifest and Digital Signing Solution for Verifiable MCP and LLM Pipelines

Arxiv

0+阅读 · 1月30日

MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics

Arxiv

0+阅读 · 1月30日

Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration

Arxiv

0+阅读 · 1月22日

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Arxiv

0+阅读 · 1月12日

相关基金

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的MCSAR三维高分辨率快速成像研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大规模爆炸场数值模拟实时交互可视化软件

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员