While Multi-Agent Systems (MAS) show potential for complex clinical decision support, the field remains hindered by architectural fragmentation and the lack of standardized multimodal integration. Current medical MAS research suffers from non-uniform data ingestion pipelines, inconsistent visual-reasoning evaluation, and a lack of cross-specialty benchmarking. To address these challenges, we present MedMASLab, a unified framework and benchmarking platform for multimodal medical multi-agent systems. MedMASLab introduces: (1) A standardized multimodal agent communication protocol that enables seamless integration of 11 heterogeneous MAS architectures across 24 medical modalities. (2) An automated clinical reasoning evaluator, a zero-shot semantic evaluation paradigm that overcomes the limitations of lexical string-matching by leveraging large vision-language models to verify diagnostic logic and visual grounding. (3) The most extensive benchmark to date, spanning 11 organ systems and 473 diseases, standardizing data from 11 clinical benchmarks. Our systematic evaluation reveals a critical domain-specific performance gap: while MAS improves reasoning depth, current architectures exhibit significant fragility when transitioning between specialized medical sub-domains. We provide a rigorous ablation of interaction mechanisms and cost-performance trade-offs, establishing a new technical baseline for future autonomous clinical systems. The source code and data is publicly available at: https://github.com/NUS-Project/MedMASLab/


翻译:尽管多智能体系统(MAS)在复杂临床决策支持方面展现出潜力,但该领域仍受制于架构碎片化及缺乏标准化的多模态集成。当前医疗MAS研究存在数据输入管道不统一、视觉推理评估不一致以及缺乏跨专科基准测试等问题。为应对这些挑战,我们提出了MedMASLab——一个面向多模态医疗多智能体系统的统一框架与基准测试平台。MedMASLab引入了:(1)标准化多模态智能体通信协议,支持跨24种医疗模态的11种异构MAS架构无缝集成。(2)自动化临床推理评估器,这是一种零样本语义评估范式,通过利用大规模视觉语言模型验证诊断逻辑与视觉基础,克服了词汇字符串匹配的局限性。(3)迄今最全面的基准测试集,涵盖11个器官系统与473种疾病,标准化整合了来自11个临床基准测试的数据。我们的系统性评估揭示了一个关键的领域特定性能差距:虽然MAS提升了推理深度,但当前架构在跨医疗专科子领域转换时表现出显著的脆弱性。我们对交互机制与成本性能权衡进行了严格消融实验,为未来自主临床系统建立了新的技术基线。源代码与数据已公开于:https://github.com/NUS-Project/MedMASLab/

0
下载
关闭预览

相关内容

《多智能体任务规划》2022博士论文
专知会员服务
286+阅读 · 2022年11月20日
【AI与医学】多模态机器学习精准医疗健康
专知会员服务
83+阅读 · 2022年4月25日
【AI与医学】多模态机器学习精准医疗健康
【MES】可能是史上最详细的MES介绍
产业智能官
16+阅读 · 2020年6月22日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员