The Model Context Protocol (MCP) introduces a standard specification that defines how Foundation Model (FM)-based agents should interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. Hence, we examine 856 tools spread across 103 MCP servers empirically, assess their description quality, and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, and then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These results indicate that achieving performance gains is not straightforward; while execution cost can act as a trade-off, execution context can also impact. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.


翻译:模型上下文协议(MCP)引入了一个标准规范,定义了基于基础模型(FM)的智能体应如何通过调用工具与外部系统进行交互。然而,为理解工具的功能与特性,FM需要依赖自然语言描述的工具说明,这使得这些描述成为引导FM为特定(子)任务选择最优工具并传递正确参数的关键要素。尽管这些描述中的缺陷或"气味"可能误导FM智能体,但其在MCP生态系统中的普遍性及影响仍不明确。为此,我们基于103个MCP服务器中的856个工具进行了实证研究,评估其描述质量及对智能体性能的影响。我们从文献中归纳出工具描述的六个组成要素,并据此开发了评分标准,进而形式化定义了基于该标准的工具描述"气味"。通过利用基于FM的扫描器实施这一标准,我们发现97.1%的分析工具描述至少包含一种"气味",其中56%未能清晰阐述其功能意图。尽管针对所有要素增强描述能使任务成功率中位数提升5.85个百分点,部分目标完成率提高15.12%,但同时也导致执行步骤增加67.46%,并在16.67%的案例中出现性能退化。这些结果表明,实现性能提升并非易事:执行成本可作为权衡因素,但执行上下文也会产生影响。此外,要素消融实验显示,不同要素组合的紧凑变体通常能在保持行为可靠性的同时减少不必要的token开销,从而更高效地利用FM上下文窗口并降低执行成本。

0
下载
关闭预览

相关内容

【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
35+阅读 · 2025年5月16日
基础模型驱动的智能体服务部署:综述
专知会员服务
53+阅读 · 2024年12月19日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
【斯坦福课程】基础模型进展
专知会员服务
52+阅读 · 2023年1月15日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员