Large Language Models (LLMs) achieve competitive results compared to human experts in medical examinations. However, it remains a challenge to apply LLMs to complex clinical decision-making, which requires a deep understanding of medical knowledge and differs from the standardized, exam-style scenarios commonly used in current efforts. A common approach is to fine-tune LLMs for target tasks, which, however, not only requires substantial data and computational resources but also remains prone to generating `hallucinations'. In this work, we present RiskAgent, which synergizes language models with hundreds of validated clinical decision tools supported by evidence-based medicine, to provide generalizable and faithful recommendations. Our experiments show that RiskAgent not only achieves superior performance on a broad range of clinical risk predictions across diverse scenarios and diseases, but also demonstrates robust generalization in tool learning on the external MedCalc-Bench dataset, as well as in medical reasoning and question answering on three representative benchmarks, MedQA, MedMCQA, and MMLU.


翻译:大型语言模型(LLM)在医学考试中取得了与人类专家相媲美的结果。然而,将LLM应用于复杂的临床决策仍面临挑战,这需要深厚的医学知识理解,且不同于当前研究中常用的标准化、考试式场景。一种常见方法是对LLM进行目标任务微调,但这不仅需要大量数据和计算资源,且仍易产生“幻觉”。在本工作中,我们提出RiskAgent,它将语言模型与数百种由循证医学支持的已验证临床决策工具相协同,以提供可泛化且可靠的推荐。我们的实验表明,RiskAgent不仅在多种场景和疾病的广泛临床风险预测中实现了卓越性能,还在外部MedCalc-Bench数据集上的工具学习,以及在MedQA、MedMCQA和MMLU三个代表性基准上的医学推理与问答中,均展现出强大的泛化能力。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员