Multi-agent large language model (LLM) systems have emerged as a promising approach for clinical diagnosis, leveraging collaboration among agents to refine medical reasoning. However, most existing frameworks rely on single-vendor teams (e.g., multiple agents from the same model family), which risk correlated failure modes that reinforce shared biases rather than correcting them. We investigate the impact of vendor diversity by comparing Single-LLM, Single-Vendor, and Mixed-Vendor Multi-Agent Conversation (MAC) frameworks. Using three doctor agents instantiated with o4-mini, Gemini-2.5-Pro, and Claude-4.5-Sonnet, we evaluate performance on RareBench and DiagnosisArena. Mixed-vendor configurations consistently outperform single-vendor counterparts, achieving state-of-the-art recall and accuracy. Overlap analysis reveals the underlying mechanism: mixed-vendor teams pool complementary inductive biases, surfacing correct diagnoses that individual models or homogeneous teams collectively miss. These results highlight vendor diversity as a key design principle for robust clinical diagnostic systems.


翻译:多智能体大语言模型系统已成为临床诊断领域一种前景广阔的方法,其通过智能体间的协作来优化医学推理。然而,现有框架大多依赖单一供应商团队(例如,使用来自同一模型家族的多个智能体),这存在相关故障模式的风险,可能强化共享偏见而非纠正它们。我们通过比较单一大语言模型、单一供应商以及混合供应商的多智能体对话框架,研究了供应商多样性的影响。我们使用 o4-mini、Gemini-2.5-Pro 和 Claude-4.5-Sonnet 实例化了三位医生智能体,并在 RareBench 和 DiagnosisArena 数据集上评估了其性能。混合供应商配置在各项指标上持续优于单一供应商配置,实现了最先进的召回率和准确率。重叠分析揭示了其底层机制:混合供应商团队汇集了互补的归纳偏差,从而发掘出单个模型或同质化团队集体遗漏的正确诊断。这些结果表明,供应商多样性是构建稳健临床诊断系统的关键设计原则。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
21+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
39+阅读 · 2月2日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
多智能体协作机制:大语言模型综述
专知会员服务
85+阅读 · 2025年1月14日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
139+阅读 · 2024年2月6日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【AI与医学】多模态机器学习精准医疗健康
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
24+阅读 · 2024年2月23日
VIP会员
最新内容
【综述】 机器人学习中的世界模型:全面综述
伊朗的导弹-无人机行动及其对美国威慑的影响
【综述】 基于大语言模型的对话用户模拟综述
相关VIP内容
多智能体协作机制
专知会员服务
21+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
39+阅读 · 2月2日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
多智能体协作机制:大语言模型综述
专知会员服务
85+阅读 · 2025年1月14日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
139+阅读 · 2024年2月6日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员