Mental disorders are highly prevalent worldwide, but the shortage of psychiatrists and the inherent subjectivity of interview-based diagnosis create substantial barriers to timely and consistent mental-health assessment. Progress in AI-assisted psychiatric diagnosis is constrained by the absence of benchmarks that simultaneously provide realistic patient simulation, clinician-verified diagnostic labels, and support for dynamic multi-turn consultation. We present LingxiDiagBench, a large-scale multi-agent benchmark that evaluates LLMs on both static diagnostic inference and dynamic multi-turn psychiatric consultation in Chinese. At its core is LingxiDiag-16K, a dataset of 16,000 EMR-aligned synthetic consultation dialogues designed to reproduce real clinical demographic and diagnostic distributions across 12 ICD-10 psychiatric categories. Through extensive experiments across state-of-the-art LLMs, we establish key findings: (1) although LLMs achieve high accuracy on binary depression--anxiety classification (up to 92.3%), performance deteriorates substantially for depression--anxiety comorbidity recognition (43.0%) and 12-way differential diagnosis (28.5%); (2) dynamic consultation often underperforms static evaluation, indicating that ineffective information-gathering strategies significantly impair downstream diagnostic reasoning; (3) consultation quality assessed by LLM-as-a-Judge shows only moderate correlation with diagnostic accuracy, suggesting that well-structured questioning alone does not ensure correct diagnostic decisions. We release LingxiDiag-16K and the full evaluation framework to support reproducible research at https://github.com/Lingxi-mental-health/LingxiDiagBench.


翻译:精神障碍在全球范围内高度流行,但精神科医生短缺以及基于访谈诊断固有的主观性,为及时、一致的心理健康评估造成了重大障碍。人工智能辅助精神科诊断的进展受到缺乏同时具备真实患者模拟、临床医生验证的诊断标签以及支持动态多轮咨询的基准测试的限制。我们提出灵析诊断基准(LingxiDiagBench),这是一个大规模多智能体基准,用于评估大语言模型在中文静态诊断推理与动态多轮精神科咨询中的表现。其核心是灵析诊断-16K数据集,包含16,000个与电子病历对齐的合成咨询对话,旨在再现涵盖12个ICD-10精神科类别的真实临床人口统计学与诊断分布。通过对最先进的大语言模型进行广泛实验,我们得出关键发现:(1) 尽管大语言模型在二元抑郁-焦虑分类上达到高准确率(最高92.3%),但在抑郁-焦虑共病识别(43.0%)和12类鉴别诊断(28.5%)中性能显著下降;(2) 动态咨询的表现通常逊于静态评估,表明无效的信息收集策略严重损害了下游诊断推理能力;(3) 以“大语言模型作为评审”评估的咨询质量与诊断准确率仅呈中等程度相关,表明结构良好的提问本身并不能确保正确的诊断决策。我们公开发布灵析诊断-16K数据集及完整评估框架,以支持可重复研究,访问地址:https://github.com/Lingxi-mental-health/LingxiDiagBench。

0
下载
关闭预览

相关内容

大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
【AI与医学】多模态机器学习精准医疗健康
大讲堂 | 基于医疗知识的疾病诊断预测
AI科技评论
10+阅读 · 2019年1月22日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员