Large language models (LLMs) are increasingly applied to health management, showing promise across disease prevention, clinical decision-making, and long-term care. However, existing medical benchmarks remain largely static and task-isolated, failing to capture the openness, longitudinal structure, and safety-critical complexity of real-world clinical workflows. We introduce ClinConsensus, a Chinese medical benchmark curated, validated, and quality-controlled by clinical experts. ClinConsensus comprises 2500 open-ended cases spanning the full continuum of care--from prevention and intervention to long-term follow-up--covering 36 medical specialties, 12 common clinical task types, and progressively increasing levels of complexity. To enable reliable evaluation of such complex scenarios, we adopt a rubric-based grading protocol and propose the Clinically Applicable Consistency Score (CACS@k). We further introduce a dual-judge evaluation framework, combining a high-capability LLM-as-judge with a distilled, locally deployable judge model trained via supervised fine-tuning, enabling scalable and reproducible evaluation aligned with physician judgment. Using ClinConsensus, we conduct a comprehensive assessment of several leading LLMs and reveal substantial heterogeneity across task themes, care stages, and medical specialties. While top-performing models achieve comparable overall scores, they differ markedly in reasoning, evidence use, and longitudinal follow-up capabilities, and clinically actionable treatment planning remains a key bottleneck. We release ClinConsensus as an extensible benchmark to support the development and evaluation of medical LLMs that are robust, clinically grounded, and ready for real-world deployment.


翻译:大语言模型(LLMs)在健康管理领域的应用日益广泛,在疾病预防、临床决策和长期护理等方面展现出潜力。然而,现有医疗评估基准大多为静态且任务孤立的,未能捕捉真实世界临床工作流程的开放性、纵向结构及安全关键复杂性。我们提出了ClinConsensus,这是一个由临床专家精心策划、验证并进行质量控制的医疗中文评估基准。ClinConsensus包含2500个开放式案例,覆盖从预防、干预到长期随访的完整照护连续过程,涵盖36个医学专科、12种常见临床任务类型,并设置了渐进增加的复杂度层级。为对此类复杂场景进行可靠评估,我们采用基于量规的评分协议,并提出了临床适用一致性分数(CACS@k)。我们进一步引入了双评委评估框架,将高性能的LLM-as-judge与通过监督微调训练的、可本地部署的蒸馏评委模型相结合,实现了与医师判断对齐的可扩展、可复现的评估。利用ClinConsensus,我们对多个主流大语言模型进行了全面评估,揭示了模型在不同任务主题、照护阶段和医学专科间存在显著异质性。尽管表现最佳的模型在总体得分上相近,但其在推理、证据运用和纵向随访能力方面差异明显,且具有临床可操作性的治疗规划仍是关键瓶颈。我们发布ClinConsensus作为一个可扩展的基准,以支持开发并评估那些稳健、临床基础扎实且可投入实际应用的医疗大语言模型。

0
下载
关闭预览

相关内容

大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
7+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
12+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
10+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
10+阅读 · 4月30日
相关VIP内容
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员