While large language models (LLMs) can support clinical documentation needs, standalone tools struggle with "workflow friction" from manual data entry. We developed ChatEHR, a system that enables the use of LLMs with the entire patient timeline spanning several years. ChatEHR enables automations - which are static combinations of prompts and data that perform a fixed task - and interactive use in the electronic health record (EHR) via a user interface (UI). The resulting ability to sift through patient medical records for diverse use-cases such as pre-visit chart review, screening for transfer eligibility, monitoring for surgical site infections, and chart abstraction, redefines LLM use as an institutional capability. This system, accessible after user-training, enables continuous monitoring and evaluation of LLM use. In 1.5 years, we built 7 automations and 1075 users have trained to become routine users of the UI, engaging in 23,000 sessions in the first 3 months of launch. For automations, being model-agnostic and accessing multiple types of data was essential for matching specific clinical or administrative tasks with the most appropriate LLM. Benchmark-based evaluations proved insufficient for monitoring and evaluation of the UI, requiring new methods to monitor performance. Generation of summaries was the most frequent task in the UI, with an estimated 0.73 hallucinations and 1.60 inaccuracies per generation. The resulting mix of cost savings, time savings, and revenue growth required a value assessment framework to prioritize work as well as quantify the impact of using LLMs. Initial estimates are $6M savings in the first year of use, without quantifying the benefit of the better care offered. Such a "build-from-within" strategy provides an opportunity for health systems to maintain agency via a vendor-agnostic, internally governed LLM platform.


翻译:尽管大语言模型(LLMs)能够支持临床文档需求,但独立工具常因手动数据输入而面临“工作流摩擦”。我们开发了ChatEHR系统,该系统允许使用LLMs处理跨越多年的完整患者时间线。ChatEHR支持自动化功能(即提示词与数据的静态组合以执行固定任务),并通过用户界面(UI)在电子健康记录(EHR)中实现交互式使用。由此产生的对患者医疗记录进行筛选的能力,适用于就诊前病历审查、转院资格筛查、手术部位感染监测及病历摘要提取等多种用例,将LLM的使用重新定义为一种机构能力。该系统在用户培训后即可使用,并支持对LLM使用进行持续监控与评估。在1.5年内,我们构建了7个自动化功能,1075名用户完成培训并成为UI的常规用户,在启动后的前3个月内完成了23000次会话。对于自动化功能,模型无关性及多类型数据访问能力对于将特定临床或行政任务与最合适的LLM相匹配至关重要。基于基准测试的评估方法不足以对UI进行监控与评估,因此需要开发新方法来监控性能。摘要生成是UI中最常见的任务,每次生成平均存在0.73次幻觉和1.60次不准确。由此产生的成本节约、时间节约与收入增长混合效应,需要一套价值评估框架来优先安排工作并量化LLM使用的影响。初步估计首年节约达600万美元,这尚未量化更优医疗服务带来的益处。这种“内生式建设”策略为医疗系统提供了通过供应商无关、内部治理的LLM平台保持自主权的机会。

0
下载
关闭预览

相关内容

LLM4SR:关于大规模语言模型在科学研究中的应用综述
专知会员服务
42+阅读 · 2025年1月9日
医学中大型语言模型综述:进展、应用与挑战
专知会员服务
63+阅读 · 2023年11月11日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
NLP预训练模型大集合!
全球人工智能
31+阅读 · 2018年12月29日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
《特种部队在透明战场中的生存力》最新报告
专知会员服务
0+阅读 · 30分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员