Clinical diagnosis begins with doctor-patient interaction, during which physicians iteratively gather information, determine examination and refine differential diagnosis through patients' response. This dynamic clinical-reasoning process is poorly represented by existing LLM benchmarks that focus on static question-answering. To mitigate these gaps, recent methods explore dynamic medical frameworks involving interactive clinical dialogues. Although effective, they often rely on limited, contamination-prone datasets and lack granular, multi-level evaluation. In this work, we propose ClinDEF, a dynamic framework for assessing clinical reasoning in LLMs through simulated diagnostic dialogues. Grounded in a disease knowledge graph, our method dynamically generates patient cases and facilitates multi-turn interactions between an LLM-based doctor and an automated patient agent. Our evaluation protocol goes beyond diagnostic accuracy by incorporating fine-grained efficiency analysis and rubric-based assessment of diagnostic quality. Experiments show that ClinDEF effectively exposes critical clinical reasoning gaps in state-of-the-art LLMs, offering a more nuanced and clinically meaningful evaluation paradigm.


翻译:临床诊断始于医患互动,在此过程中医生通过患者反馈迭代收集信息、确定检查项目并完善鉴别诊断。现有专注于静态问答的大语言模型基准难以体现这一动态临床推理过程。为弥补这些不足,近期研究开始探索涉及交互式临床对话的动态医疗框架。这些方法虽具成效,但常依赖有限且易受污染的数据集,并缺乏细粒度的多层级评估。本研究提出ClinDEF,一个通过模拟诊断对话评估大语言模型临床推理能力的动态框架。基于疾病知识图谱,本方法动态生成患者病例,并促进基于大语言模型的医生与自动化患者代理之间的多轮交互。我们的评估协议不仅关注诊断准确性,更融合细粒度效率分析及基于量规的诊断质量评估。实验表明,ClinDEF能有效揭示前沿大语言模型的关键临床推理缺陷,为临床评估提供更精细且具有临床意义的评估范式。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
医学大语言模型研究与应用综述
专知会员服务
67+阅读 · 2024年7月2日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【AAAI2022】Diaformer: 采用症状序列生成的方式做自动诊断
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员