To make clinically grounded decisions, medical AI agents are expected to go beyond simple recognition and be capable of tool retrieval, evidence acquisition, and integration. Existing benchmarks largely evaluate isolated perception or single-turn question answering, and therefore provide limited visibility into failures of planning, tool recruitment, and rollout reliability. We introduce MedCTA, a benchmark for evaluating medical tool agents on clinician-validated, step-implicit tasks grounded in realistic multimodal clinical inputs, including radiology images, pathology slides, and reports. MedCTA comprises 107 real-world clinical tasks with clinician-verified executable trajectories over 5 deployed tools, and supports process-aware evaluation of tool selection, argument validity, execution stability, trajectory fidelity, and outcome quality. We benchmark 18 open- and closed-source multimodal models and find that even frontier systems remain brittle in multi-step clinical tool use: autonomous rollouts are dominated by protocol failures, premature stopping, and incorrect tool recruitment, while gold-standard tool routing yields large but still incomplete gains. These results show that strong backbone perception does not translate into reliable agentic behavior in clinical settings. MedCTA provides a rigorous testbed for auditing, diagnosing, and advancing trustworthy medical AI agents. The dataset and evaluation suite are available at https://ivul-kaust.github.io/MedCTA/


翻译:为做出临床依据的决策,医疗人工智能智能体需超越简单识别能力,具备工具检索、证据获取与整合能力。现有基准测试主要评估孤立感知或单轮问答能力,难以揭示规划缺陷、工具调用机制及执行可靠性问题。我们提出MedCTA——面向医学工具智能体的基准测试,基于临床专家验证且隐含步骤的真实多模态临床数据(包括放射影像、病理切片及报告)构建评估体系。该基准包含107项真实临床任务,涵盖经临床专家验证的5个部署工具的完整可执行轨迹,支持对工具选择、参数有效性、执行稳定性、轨迹保真度及结果质量进行过程感知评估。通过对18个开源与闭源多模态模型的基准测试,我们发现前沿系统在多步骤临床工具使用中仍显脆弱:自主执行表现为协议失效、过早终止及工具调用错误为主,而使用黄金标准工具路由虽能显著提升性能但仍有改进空间。该结果表明,强大的骨干感知能力并不能转化为临床场景中可靠的智能体行为。MedCTA为审计、诊断及推动可信医疗AI智能体发展提供了严格的测试平台。数据集与评估套件可通过https://ivul-kaust.github.io/MedCTA/获取。

0
下载
关闭预览

相关内容

中国AI医疗行业白皮书:精准医疗,智能未来
专知会员服务
27+阅读 · 2025年4月14日
《人工智能安全标准体系(V1.0)》(征求意见稿)
专知会员服务
29+阅读 · 2025年3月23日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
人工智能技术在口腔正畸诊疗中的应用研究进展
专知会员服务
14+阅读 · 2022年5月1日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
36氪研究院 | 2021年中国医疗AI行业研究报告,40页pdf
专知会员服务
84+阅读 · 2021年12月22日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【重磅】《人工智能标准化白皮书(2018)》发布(完整版)
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员