MedMCP-Calc：通过MCP集成评估LLM在真实医疗计算器场景中的基准测试 (MedMCP-Calc: Benchmarking LLMs for Realistic Medical Calculator Scenarios via MCP Integration) - 专知论文

会员服务 ·

0

基准 · 基准测试 · 集成 · 健康 · 数据库 ·

MedMCP-Calc: Benchmarking LLMs for Realistic Medical Calculator Scenarios via MCP Integration

翻译：MedMCP-Calc：通过MCP集成评估LLM在真实医疗计算器场景中的基准测试

Yakun Zhu,Yutong Huang,Shengqian Qin,Zhongzhen Huang,Shaoting Zhang,Xiaofan Zhang

Medical calculators are fundamental to quantitative, evidence-based clinical practice. However, their real-world use is an adaptive, multi-stage process, requiring proactive EHR data acquisition, scenario-dependent calculator selection, and multi-step computation, whereas current benchmarks focus only on static single-step calculations with explicit instructions. To address these limitations, we introduce MedMCP-Calc, the first benchmark for evaluating LLMs in realistic medical calculator scenarios through Model Context Protocol (MCP) integration. MedMCP-Calc comprises 118 scenario tasks across 4 clinical domains, featuring fuzzy task descriptions mimicking natural queries, structured EHR database interaction, external reference retrieval, and process-level evaluation. Our evaluation of 23 leading models reveals critical limitations: even top performers like Claude Opus 4.5 exhibit substantial gaps, including difficulty selecting appropriate calculators for end-to-end workflows given fuzzy queries, poor performance in iterative SQL-based database interactions, and marked reluctance to leverage external tools for numerical computation. Performance also varies considerably across clinical domains. Building on these findings, we develop CalcMate, a fine-tuned model incorporating scenario planning and tool augmentation, achieving state-of-the-art performance among open-source models. Benchmark and Codes are available in https://github.com/SPIRAL-MED/MedMCP-Calc.

翻译：医疗计算器是定量、循证临床实践的基础。然而，其实际应用是一个自适应的多阶段过程，需要主动获取电子健康记录数据、根据场景选择计算器并进行多步计算，而现有基准测试仅关注具有明确指令的静态单步计算。为解决这些局限性，我们提出了MedMCP-Calc，这是首个通过模型上下文协议集成来评估大语言模型在真实医疗计算器场景中表现的基准。MedMCP-Calc包含4个临床领域的118个场景任务，其特点包括模拟自然查询的模糊任务描述、结构化电子健康记录数据库交互、外部参考检索以及过程级评估。我们对23个领先模型的评估揭示了关键局限：即使是Claude Opus 4.5等顶级模型也存在显著差距，包括难以根据模糊查询为端到端工作流选择合适的计算器、在基于SQL的迭代数据库交互中表现不佳，以及明显不愿利用外部工具进行数值计算。不同临床领域的性能也存在显著差异。基于这些发现，我们开发了CalcMate，这是一个融合了场景规划和工具增强的微调模型，在开源模型中实现了最先进的性能。基准测试和代码可在https://github.com/SPIRAL-MED/MedMCP-Calc获取。

0

相关内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《战斗准备-医学研究计划：战略规划》美国会指导医学研究计划（CDMRP）

《战斗准备-医学研究计划：战略规划》美国会指导医学研究计划（CDMRP）

专知会员服务

14+阅读 · 2024年9月2日

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

专知会员服务

70+阅读 · 2024年1月8日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

《深度学习医学图像配准》综述进展

《深度学习医学图像配准》综述进展

专知会员服务

49+阅读 · 2022年5月9日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

深圳大学医学超声图像计算实验室招博士后 | 年薪26-28万，手术机器人/医学图像处理/控制算法/图像引导手术方向

深圳大学医学超声图像计算实验室招博士后 | 年薪26-28万，手术机器人/医学图像处理/控制算法/图像引导手术方向

科研圈

12+阅读 · 2018年5月24日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

设计杂原子掺杂石墨烯量子点用于癌症诊疗一体化研究

国家自然科学基金

0+阅读 · 2015年12月31日

糖尿病信息管理系统中视网膜图像互操作与CAD-SR研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

Arxiv

0+阅读 · 3月10日

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Arxiv

0+阅读 · 3月10日

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Arxiv

0+阅读 · 2月16日

MLLM-CTBench: A Benchmark for Continual Instruction Tuning with Reasoning Process Diagnosis

Arxiv

0+阅读 · 2月13日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

Arxiv

0+阅读 · 2月6日

MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations

Arxiv

0+阅读 · 2月5日

M^3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

Arxiv

0+阅读 · 2月4日

Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare

Arxiv

0+阅读 · 2月4日

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】迈向可扩展的开放世界三维感知

【CMU博士论文】迈向可扩展的开放世界三维感知

专知会员服务

0+阅读 · 11分钟前

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

0+阅读 · 14分钟前

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

2+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

5+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

18+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

相关VIP内容

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

《Med3DVLM：面向三维医学图像分析的高效视觉-语言模型》

专知会员服务

9+阅读 · 2025年3月27日

《战斗准备-医学研究计划：战略规划》美国会指导医学研究计划（CDMRP）

《战斗准备-医学研究计划：战略规划》美国会指导医学研究计划（CDMRP）

专知会员服务

14+阅读 · 2024年9月2日

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

专知会员服务

70+阅读 · 2024年1月8日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

【MIT博士论文】利用深度学习改进医学影像分割，165页pdf

专知会员服务

28+阅读 · 2023年8月15日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

北航等最新《深度半监督学习医学图像分割》综述，16页pdf阐述医学图像分割的半监督学习方法体系

专知会员服务

64+阅读 · 2022年8月2日

《深度学习医学图像配准》综述进展

《深度学习医学图像配准》综述进展

专知会员服务

49+阅读 · 2022年5月9日

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

最新50页结构健康监测综述论文，《机器学习和结构健康监测（SHM）技术综述：新兴技术和高维数据源》，土耳其中东理工大学、剑桥大学等机构

专知会员服务

35+阅读 · 2022年4月11日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

前馈式三维场景建模

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

相关资讯

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

专知

10+阅读 · 2022年5月2日

【AI与医学】多模态机器学习精准医疗健康

【AI与医学】多模态机器学习精准医疗健康

专知

17+阅读 · 2022年4月25日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

深圳大学医学超声图像计算实验室招博士后 | 年薪26-28万，手术机器人/医学图像处理/控制算法/图像引导手术方向

深圳大学医学超声图像计算实验室招博士后 | 年薪26-28万，手术机器人/医学图像处理/控制算法/图像引导手术方向

科研圈

12+阅读 · 2018年5月24日

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

【前沿】自动从CT医疗影像中生成诊断报告，卡内基梅隆大学CMU邢波教授团队最新基于深度学习的医疗影像研究成果

专知

18+阅读 · 2017年11月24日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

相关论文

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

Arxiv

0+阅读 · 3月10日

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Arxiv

0+阅读 · 3月10日

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Arxiv

0+阅读 · 2月16日

MLLM-CTBench: A Benchmark for Continual Instruction Tuning with Reasoning Process Diagnosis

Arxiv

0+阅读 · 2月13日

MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Arxiv

1+阅读 · 2月6日

MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

Arxiv

0+阅读 · 2月6日

MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations

Arxiv

0+阅读 · 2月5日

M^3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

Arxiv

0+阅读 · 2月4日

Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare

Arxiv

0+阅读 · 2月4日

MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning

Arxiv

0+阅读 · 2月3日

相关基金

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

设计杂原子掺杂石墨烯量子点用于癌症诊疗一体化研究

国家自然科学基金

0+阅读 · 2015年12月31日

糖尿病信息管理系统中视网膜图像互操作与CAD-SR研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多准则场景缩减的“零停机”设备状态预测与维护方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

云平台中可优化分析操作的海量医学图像存储管理技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员