Medical calculators are fundamental to quantitative, evidence-based clinical practice. However, their real-world use is an adaptive, multi-stage process, requiring proactive EHR data acquisition, scenario-dependent calculator selection, and multi-step computation, whereas current benchmarks focus only on static single-step calculations with explicit instructions. To address these limitations, we introduce MedMCP-Calc, the first benchmark for evaluating LLMs in realistic medical calculator scenarios through Model Context Protocol (MCP) integration. MedMCP-Calc comprises 118 scenario tasks across 4 clinical domains, featuring fuzzy task descriptions mimicking natural queries, structured EHR database interaction, external reference retrieval, and process-level evaluation. Our evaluation of 23 leading models reveals critical limitations: even top performers like Claude Opus 4.5 exhibit substantial gaps, including difficulty selecting appropriate calculators for end-to-end workflows given fuzzy queries, poor performance in iterative SQL-based database interactions, and marked reluctance to leverage external tools for numerical computation. Performance also varies considerably across clinical domains. Building on these findings, we develop CalcMate, a fine-tuned model incorporating scenario planning and tool augmentation, achieving state-of-the-art performance among open-source models. Benchmark and Codes are available in https://github.com/SPIRAL-MED/MedMCP-Calc.


翻译:医疗计算器是定量、循证临床实践的基础。然而,其实际应用是一个自适应的多阶段过程,需要主动获取电子健康记录数据、根据场景选择计算器并进行多步计算,而现有基准测试仅关注具有明确指令的静态单步计算。为解决这些局限性,我们提出了MedMCP-Calc,这是首个通过模型上下文协议集成来评估大语言模型在真实医疗计算器场景中表现的基准。MedMCP-Calc包含4个临床领域的118个场景任务,其特点包括模拟自然查询的模糊任务描述、结构化电子健康记录数据库交互、外部参考检索以及过程级评估。我们对23个领先模型的评估揭示了关键局限:即使是Claude Opus 4.5等顶级模型也存在显著差距,包括难以根据模糊查询为端到端工作流选择合适的计算器、在基于SQL的迭代数据库交互中表现不佳,以及明显不愿利用外部工具进行数值计算。不同临床领域的性能也存在显著差异。基于这些发现,我们开发了CalcMate,这是一个融合了场景规划和工具增强的微调模型,在开源模型中实现了最先进的性能。基准测试和代码可在https://github.com/SPIRAL-MED/MedMCP-Calc获取。

0
下载
关闭预览

相关内容

【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《深度学习医学图像配准》综述进展
专知会员服务
49+阅读 · 2022年5月9日
【AI与医学】多模态机器学习精准医疗健康
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
0+阅读 · 11分钟前
前馈式三维场景建模
专知会员服务
0+阅读 · 14分钟前
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
18+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
3+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关VIP内容
【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《深度学习医学图像配准》综述进展
专知会员服务
49+阅读 · 2022年5月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员