MedCTA: A Benchmark for Clinical Tool Agents - 专知论文

会员服务 ·

0

工具 · 基准 · 基准测试 · 智能体 · 多模 ·

MedCTA: A Benchmark for Clinical Tool Agents

翻译：MedCTA：临床工具智能体基准测试

Tajamul Ashraf,Hyewon Jeong,Fida Mohammad Thoker,Bernard Ghanem

from arxiv, Project Page: https://ivul-kaust.github.io/MedCTA/ Code: https://github.com/IVUL-KAUST/MedCTA Data: https://huggingface.co/datasets/IVUL-KAUST/MedCTA

To make clinically grounded decisions, medical AI agents are expected to go beyond simple recognition and be capable of tool retrieval, evidence acquisition, and integration. Existing benchmarks largely evaluate isolated perception or single-turn question answering, and therefore provide limited visibility into failures of planning, tool recruitment, and rollout reliability. We introduce MedCTA, a benchmark for evaluating medical tool agents on clinician-validated, step-implicit tasks grounded in realistic multimodal clinical inputs, including radiology images, pathology slides, and reports. MedCTA comprises 107 real-world clinical tasks with clinician-verified executable trajectories over 5 deployed tools, and supports process-aware evaluation of tool selection, argument validity, execution stability, trajectory fidelity, and outcome quality. We benchmark 18 open- and closed-source multimodal models and find that even frontier systems remain brittle in multi-step clinical tool use: autonomous rollouts are dominated by protocol failures, premature stopping, and incorrect tool recruitment, while gold-standard tool routing yields large but still incomplete gains. These results show that strong backbone perception does not translate into reliable agentic behavior in clinical settings. MedCTA provides a rigorous testbed for auditing, diagnosing, and advancing trustworthy medical AI agents. The dataset and evaluation suite are available at https://ivul-kaust.github.io/MedCTA/

翻译：为做出临床依据的决策，医疗人工智能智能体需超越简单识别能力，具备工具检索、证据获取与整合能力。现有基准测试主要评估孤立感知或单轮问答能力，难以揭示规划缺陷、工具调用机制及执行可靠性问题。我们提出MedCTA——面向医学工具智能体的基准测试，基于临床专家验证且隐含步骤的真实多模态临床数据（包括放射影像、病理切片及报告）构建评估体系。该基准包含107项真实临床任务，涵盖经临床专家验证的5个部署工具的完整可执行轨迹，支持对工具选择、参数有效性、执行稳定性、轨迹保真度及结果质量进行过程感知评估。通过对18个开源与闭源多模态模型的基准测试，我们发现前沿系统在多步骤临床工具使用中仍显脆弱：自主执行表现为协议失效、过早终止及工具调用错误为主，而使用黄金标准工具路由虽能显著提升性能但仍有改进空间。该结果表明，强大的骨干感知能力并不能转化为临床场景中可靠的智能体行为。MedCTA为审计、诊断及推动可信医疗AI智能体发展提供了严格的测试平台。数据集与评估套件可通过https://ivul-kaust.github.io/MedCTA/获取。

0

相关内容

中国AI医疗行业白皮书：精准医疗，智能未来

中国AI医疗行业白皮书：精准医疗，智能未来

专知会员服务

27+阅读 · 2025年4月14日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

专知会员服务

17+阅读 · 2024年8月30日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

人工智能技术在口腔正畸诊疗中的应用研究进展

人工智能技术在口腔正畸诊疗中的应用研究进展

专知会员服务

14+阅读 · 2022年5月1日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

36氪研究院 | 2021年中国医疗AI行业研究报告，40页pdf

36氪研究院 | 2021年中国医疗AI行业研究报告，40页pdf

专知会员服务

84+阅读 · 2021年12月22日

《百度医疗AI白皮书》（2019版）发布，百度AI产业研究中心、中国信通院、罗兰贝格编

《百度医疗AI白皮书》（2019版）发布，百度AI产业研究中心、中国信通院、罗兰贝格编

专知会员服务

23+阅读 · 2019年11月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

专知

12+阅读 · 2019年3月25日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

上海交大发布：《中国人工智能医疗白皮书》-附207页PDF

上海交大发布：《中国人工智能医疗白皮书》-附207页PDF

专知

23+阅读 · 2019年1月29日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

产业智能官

11+阅读 · 2018年1月6日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于体积测量和功能状态的精准肝切除手术风险量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

智能化数字微流控免疫检测芯片平台构建及其初步应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

Arxiv

0+阅读 · 6月16日

MedEasy: Designing AI Standardized Patients for Clinical Consultation Training

Arxiv

0+阅读 · 6月16日

MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition

Arxiv

0+阅读 · 6月15日

WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics

Arxiv

0+阅读 · 6月14日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

MediHive: A Decentralized Agent Collective for Medical Reasoning

Arxiv

0+阅读 · 5月27日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI

Arxiv

0+阅读 · 5月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

中国AI医疗行业白皮书：精准医疗，智能未来

中国AI医疗行业白皮书：精准医疗，智能未来

专知会员服务

27+阅读 · 2025年4月14日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

《人工智能全科临床辅助诊断系统技术要求》团体标准正式实施

专知会员服务

17+阅读 · 2024年8月30日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf

专知会员服务

76+阅读 · 2023年7月4日

人工智能技术在口腔正畸诊疗中的应用研究进展

人工智能技术在口腔正畸诊疗中的应用研究进展

专知会员服务

14+阅读 · 2022年5月1日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

36氪研究院 | 2021年中国医疗AI行业研究报告，40页pdf

36氪研究院 | 2021年中国医疗AI行业研究报告，40页pdf

专知会员服务

84+阅读 · 2021年12月22日

《百度医疗AI白皮书》（2019版）发布，百度AI产业研究中心、中国信通院、罗兰贝格编

《百度医疗AI白皮书》（2019版）发布，百度AI产业研究中心、中国信通院、罗兰贝格编

专知会员服务

23+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

基于知识图谱的智能医疗诊断系统（提供医生机器人的实现方案）

专知

12+阅读 · 2019年3月25日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

上海交大发布：《中国人工智能医疗白皮书》-附207页PDF

上海交大发布：《中国人工智能医疗白皮书》-附207页PDF

专知

23+阅读 · 2019年1月29日

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

【重磅】《人工智能标准化白皮书（2018）》发布（完整版）

中国自动化学会

11+阅读 · 2018年1月19日

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

业界 | 中国《人工智能标准化白皮书2018》发布完整版（附下载）

机器之心

15+阅读 · 2018年1月19日

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

产业智能官

11+阅读 · 2018年1月6日

相关论文

ERQA-Plus: A Diagnostic Benchmark for Reasoning in Embodied AI

Arxiv

0+阅读 · 6月16日

MedEasy: Designing AI Standardized Patients for Clinical Consultation Training

Arxiv

0+阅读 · 6月16日

MedAI: Evaluating TxAgent's Therapeutic Agentic Reasoning in the NeurIPS CURE-Bench Competition

Arxiv

0+阅读 · 6月15日

WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics

Arxiv

0+阅读 · 6月14日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

Arxiv

0+阅读 · 6月10日

MediHive: A Decentralized Agent Collective for Medical Reasoning

Arxiv

0+阅读 · 5月27日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

MedBeads: An Agent-Native, Immutable Data Substrate for Trustworthy Medical AI

Arxiv

0+阅读 · 5月22日

相关基金

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于体积测量和功能状态的精准肝切除手术风险量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

智能化数字微流控免疫检测芯片平台构建及其初步应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于透明的医源性感染指标测量的基准研究

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员