What Patients Really Ask: Exploring the Effect of False Assumptions in Patient Information Seeking - 专知论文

会员服务 ·

0

基准 · 基准测试 · 健康 · 问答 · 构建 ·

What Patients Really Ask: Exploring the Effect of False Assumptions in Patient Information Seeking

翻译：患者究竟询问什么：探索患者信息寻求中错误假设的影响

Raymond Xiong,Furong Jia,Lionel Wong,Monica Agrawal

Patients are increasingly using large language models (LLMs) to seek answers to their healthcare-related questions. However, benchmarking efforts in LLMs for question answering often focus on medical exam questions, which differ significantly in style and content from the questions patients actually raise in real life. To bridge this gap, we sourced data from Google's People Also Ask feature by querying the top 200 prescribed medications in the United States, curating a dataset of medical questions people commonly ask. A considerable portion of the collected questions contains incorrect assumptions and dangerous intentions. We demonstrate that the emergence of these corrupted questions is not uniformly random and depends heavily on the degree of incorrectness in the history of questions that led to their appearance. Current LLMs that perform strongly on other benchmarks struggle to identify incorrect assumptions in everyday questions.

翻译：患者越来越多地使用大型语言模型（LLMs）来寻求医疗健康相关问题的答案。然而，针对LLMs问答能力的基准测试往往侧重于医学考试题目，这类问题在风格和内容上与患者实际生活中提出的问题存在显著差异。为弥合这一差距，我们通过查询美国前200种处方药，利用谷歌的"其他人也问"功能收集数据，构建了一个人们常问的医疗问题数据集。所收集问题中有相当一部分包含错误假设和危险意图。我们证明，这些被污染问题的出现并非均匀随机，而在很大程度上取决于导致其出现的历史问题中错误假设的程度。当前在其他基准测试中表现优异的LLMs，在识别日常问题中的错误假设方面仍面临困难。

0

相关内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

30+阅读 · 2025年5月30日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

医学中大型语言模型综述：进展、应用与挑战

医学中大型语言模型综述：进展、应用与挑战

专知会员服务

63+阅读 · 2023年11月11日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知

29+阅读 · 2019年1月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的医疗保健资源供需匹配模式设计与优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于在线医疗社区的医患交互机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

More than Decision Support: Exploring Patients' Longitudinal Usage of Large Language Models in Real-World Healthcare-Seeking Journeys

Arxiv

0+阅读 · 2月16日

A Conditional Companion: Lived Experiences of People with Mental Health Disorders Using LLMs

Arxiv

0+阅读 · 2月11日

MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis

Arxiv

0+阅读 · 2月3日

Ethical Risks of Large Language Models in Medical Consultation: An Assessment Based on Reproductive Ethics

Arxiv

0+阅读 · 1月30日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty

Arxiv

0+阅读 · 1月22日

Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation

Arxiv

0+阅读 · 1月22日

Dr. Assistant: Enhancing Clinical Diagnostic Inquiry via Structured Diagnostic Reasoning Data and Reinforcement Learning

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

7+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

5+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

4+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

7+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

10+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

11+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

10+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

评估大语言模型在科学发现中的作用

评估大语言模型在科学发现中的作用

专知会员服务

19+阅读 · 2025年12月19日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

30+阅读 · 2025年5月30日

结合知识增强的大型语言模型复杂问题求解综述

结合知识增强的大型语言模型复杂问题求解综述

专知会员服务

16+阅读 · 2025年5月7日

大型语言模型疾病诊断综述

大型语言模型疾病诊断综述

专知会员服务

32+阅读 · 2024年9月21日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

医学中大型语言模型综述：进展、应用与挑战

医学中大型语言模型综述：进展、应用与挑战

专知会员服务

63+阅读 · 2023年11月11日

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

大模型如何构建“医生级”问答？谷歌DeepMInd最新《基于大型语言模型的专家级医疗问答研究》论文，提出Med-PaLM 2

专知会员服务

65+阅读 · 2023年5月21日

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

GPT-4在医学上能力如何？微软OpenAI《GPT-4在医疗难题上的能力》论文

专知会员服务

115+阅读 · 2023年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

不可错过！斯坦福《人工智能医学健康》课程，全面阐述AI在医学的应用，附Slides

专知

11+阅读 · 2022年10月24日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

医疗健康领域的短文本解析探索----文本纠错

医疗健康领域的短文本解析探索----文本纠错

深度学习自然语言处理

10+阅读 · 2020年8月5日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知

29+阅读 · 2019年1月9日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

相关论文

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Arxiv

0+阅读 · 2月19日

Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Arxiv

0+阅读 · 2月18日

More than Decision Support: Exploring Patients' Longitudinal Usage of Large Language Models in Real-World Healthcare-Seeking Journeys

Arxiv

0+阅读 · 2月16日

A Conditional Companion: Lived Experiences of People with Mental Health Disorders Using LLMs

Arxiv

0+阅读 · 2月11日

MentalSeek-Dx: Towards Progressive Hypothetico-Deductive Reasoning for Real-world Psychiatric Diagnosis

Arxiv

0+阅读 · 2月3日

Ethical Risks of Large Language Models in Medical Consultation: An Assessment Based on Reproductive Ethics

Arxiv

0+阅读 · 1月30日

MEDIC: Comprehensive Evaluation of Leading Indicators for LLM Safety and Utility in Clinical Applications

Arxiv

0+阅读 · 1月26日

Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty

Arxiv

0+阅读 · 1月22日

Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation

Arxiv

0+阅读 · 1月22日

Dr. Assistant: Enhancing Clinical Diagnostic Inquiry via Structured Diagnostic Reasoning Data and Reinforcement Learning

Arxiv

0+阅读 · 1月20日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多主题和网络模型的社交媒体电子医疗用户推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

上市后药品不良反应信号检测中双稳健方法的构建

国家自然科学基金

0+阅读 · 2015年12月31日

定量模型及在线智能引导的癌症筛查咨询方案优化验证

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向全生命周期的医疗保健资源供需匹配模式设计与优化研究

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于在线医疗社区的医患交互机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员