Patients are increasingly using large language models (LLMs) to seek answers to their healthcare-related questions. However, benchmarking efforts in LLMs for question answering often focus on medical exam questions, which differ significantly in style and content from the questions patients actually raise in real life. To bridge this gap, we sourced data from Google's People Also Ask feature by querying the top 200 prescribed medications in the United States, curating a dataset of medical questions people commonly ask. A considerable portion of the collected questions contains incorrect assumptions and dangerous intentions. We demonstrate that the emergence of these corrupted questions is not uniformly random and depends heavily on the degree of incorrectness in the history of questions that led to their appearance. Current LLMs that perform strongly on other benchmarks struggle to identify incorrect assumptions in everyday questions.


翻译:患者越来越多地使用大型语言模型(LLMs)来寻求医疗健康相关问题的答案。然而,针对LLMs问答能力的基准测试往往侧重于医学考试题目,这类问题在风格和内容上与患者实际生活中提出的问题存在显著差异。为弥合这一差距,我们通过查询美国前200种处方药,利用谷歌的"其他人也问"功能收集数据,构建了一个人们常问的医疗问题数据集。所收集问题中有相当一部分包含错误假设和危险意图。我们证明,这些被污染问题的出现并非均匀随机,而在很大程度上取决于导致其出现的历史问题中错误假设的程度。当前在其他基准测试中表现优异的LLMs,在识别日常问题中的错误假设方面仍面临困难。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
《可信的医学问答:以评估为中心的综述》
专知会员服务
13+阅读 · 2025年6月5日
大语言模型遇上知识图谱:问答系统中的融合与机遇
专知会员服务
28+阅读 · 2025年5月30日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
62+阅读 · 2023年11月11日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员