Real-world health questions from patients often unintentionally embed false assumptions or premises. In such cases, safe medical communication typically involves redirection: addressing the implicit misconception and then responding to the underlying patient context, rather than the original question. While large language models (LLMs) are increasingly being used by lay users for medical advice, they have not yet been tested for this crucial competency. Therefore, in this work, we investigate how LLMs react to false premises embedded within real-world health questions. We develop a semi-automated pipeline to curate MedRedFlag, a dataset of 1100+ questions sourced from Reddit that require redirection. We then systematically compare responses from state-of-the-art LLMs to those from clinicians. Our analysis reveals that LLMs often fail to redirect problematic questions, even when the problematic premise is detected, and provide answers that could lead to suboptimal medical decision making. Our benchmark and results reveal a novel and substantial gap in how LLMs perform under the conditions of real-world health communication, highlighting critical safety concerns for patient-facing medical AI systems. Code and dataset are available at https://github.com/srsambara-1/MedRedFlag.


翻译:来自患者的真实健康问题常无意中嵌入错误假设或前提。在此类情况下,安全的医疗沟通通常需要引导纠正:先指出隐含的误解,再回应患者所处的实际背景,而非原始问题。尽管非专业用户越来越多地使用大语言模型获取医疗建议,但这些模型尚未针对这一关键能力接受测试。因此,本研究系统探究了大语言模型如何应对真实健康问题中嵌入的错误前提。我们开发了一套半自动化流程,构建了MedRedFlag数据集——包含1100余个来自Reddit且需引导纠正的问题。通过系统对比前沿大语言模型与临床医生的回应,我们发现:即使检测到问题前提有误,大语言模型也常无法正确引导纠正,其应答可能导致次优医疗决策。我们的基准测试与结果揭示了在真实健康沟通场景下大语言模型表现中的新型重大缺陷,凸显了面向患者的医疗AI系统存在的关键安全性问题。代码与数据集见https://github.com/srsambara-1/MedRedFlag。

0
下载
关闭预览

相关内容

大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
大语言模型中幻觉问题的综合综述
专知会员服务
24+阅读 · 2025年7月8日
大型语言模型疾病诊断综述
专知会员服务
32+阅读 · 2024年9月21日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
6+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
10+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
6+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
18+阅读 · 5月25日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员