The Model Context Protocol (MCP) standardizes how Foundation Model (FM)-based agents interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. To address this, we conduct the first large-scale empirical study of 856 tools spread across 103 MCP servers, assessing their description quality and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These findings highlight a trade-off between agent performance and cost, as well as the context sensitivity of the performance gain. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.


翻译:模型上下文协议(MCP)通过调用工具标准化了基于基础模型(FM)的智能体与外部系统的交互方式。然而,为了理解工具的目的与特性,FM依赖于自然语言工具描述,这使得这些描述成为引导FM为给定(子)任务选择最优工具并传递正确参数的关键组件。尽管这些描述中的缺陷或“异味”可能误导基于FM的智能体,但它们在MCP生态系统中的普遍性及其后果仍不明确。为此,我们首次对分布在103个MCP服务器上的856个工具进行了大规模实证研究,评估其描述质量及其对智能体性能的影响。我们从文献中识别出工具描述的六个组成部分,基于这些部分制定了评分标准,并据此形式化了工具描述异味。通过基于FM的扫描器实施该标准,我们发现97.1%的被分析工具描述至少包含一种异味,其中56%未能清晰阐明其目的。虽然为所有组成部分增强这些描述可将任务成功率中位数提升5.85个百分点,并将部分目标完成率提高15.12%,但也使执行步骤数增加了67.46%,并在16.67%的情况下导致性能倒退。这些发现凸显了智能体性能与成本之间的权衡,以及性能增益的情境敏感性。此外,组件消融实验表明,不同组件组合的紧凑变体通常能在保持行为可靠性的同时减少不必要的令牌开销,从而实现FM上下文窗口的更高效利用和更低的执行成本。

0
下载
关闭预览

相关内容

【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
34+阅读 · 2025年5月16日
基础模型驱动的智能体服务部署:综述
专知会员服务
53+阅读 · 2024年12月19日
基于大型语言模型的软件工程智能体综述
专知会员服务
59+阅读 · 2024年9月6日
大模型报告:模型能力决定下限,场景适配度决定上限
专知会员服务
57+阅读 · 2024年6月3日
【斯坦福课程】基础模型进展
专知会员服务
52+阅读 · 2023年1月15日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
1+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
3+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
5+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
5+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
12+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员