Large language model (LLM)-based AI systems have shown promise for patient-facing diagnostic and management conversations in simulated settings. Translating these systems into clinical practice requires assessment in real-world workflows with rigorous safety oversight. We report a prospective, single-arm feasibility study of an LLM-based conversational AI, the Articulate Medical Intelligence Explorer (AMIE), conducting clinical history taking and presentation of potential diagnoses for patients to discuss with their provider at urgent care appointments at a leading academic medical center. 100 adult patients completed an AMIE text-chat interaction up to 5 days before their appointment. We sought to assess the conversational safety and quality, patient and clinician experience, and clinical reasoning capabilities compared to primary care providers (PCPs). Human safety supervisors monitored all patient-AMIE interactions in real time and did not need to intervene to stop any consultations based on pre-defined criteria. Patients reported high satisfaction and their attitudes towards AI improved after interacting with AMIE (p < 0.001). PCPs found AMIE's output useful with a positive impact on preparedness. AMIE's differential diagnosis (DDx) included the final diagnosis, per chart review 8 weeks post-encounter, in 90% of cases, with 75% top-3 accuracy. Blinded assessment of AMIE and PCP DDx and management (Mx) plans suggested similar overall DDx and Mx plan quality, without significant differences for DDx (p = 0.6) and appropriateness and safety of Mx (p = 0.1 and 1.0, respectively). PCPs outperformed AMIE in the practicality (p = 0.003) and cost effectiveness (p = 0.004) of Mx. While further research is needed, this study demonstrates the initial feasibility, safety, and user acceptance of conversational AI in a real-world setting, representing crucial steps towards clinical translation.


翻译:基于大语言模型(LLM)的人工智能系统在模拟环境中已显示出面向患者的诊断与管理对话潜力。将这些系统转化为临床实践需要在真实世界工作流程中进行评估,并辅以严格的安全监督。我们报告了一项前瞻性、单臂可行性研究,评估基于LLM的对话式人工智能——Articulate Medical Intelligence Explorer(AMIE)——在一家顶尖学术医疗中心的急诊就诊中,为患者进行临床病史采集并提出潜在诊断以供患者与其医疗服务提供者讨论的情况。100名成年患者在预约前最多5天完成了与AMIE的文本聊天互动。我们旨在评估其对话安全性与质量、患者和临床医生的体验,以及与初级保健提供者(PCPs)相比的临床推理能力。人类安全监督员实时监控所有患者与AMIE的互动,且根据预设标准无需干预叫停任何咨询。患者报告了高度满意度,并且与AMIE互动后对人工智能的态度有所改善(p < 0.001)。PCPs认为AMIE的输出有用,并对就诊准备产生了积极影响。根据就诊后8周的图表审查,AMIE的鉴别诊断(DDx)在90%的病例中包含了最终诊断,其中前三位准确率达到75%。对AMIE和PCPs的DDx及管理(Mx)计划的盲法评估表明,两者在整体DDx和Mx计划质量上相似,在DDx(p = 0.6)以及Mx的适当性和安全性(p值分别为0.1和1.0)方面均无显著差异。PCPs在Mx的实用性(p = 0.003)和成本效益(p = 0.004)方面优于AMIE。尽管需要进一步研究,但本研究表明了对话式人工智能在真实世界环境中的初步可行性、安全性和用户接受度,代表了向临床转化迈出的关键步伐。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
【MIT博士论文】医学人工智能中的自然语言基础模型
专知会员服务
15+阅读 · 2025年4月2日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Semantic Invariance in Agentic AI
Arxiv
0+阅读 · 3月13日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员