Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis - 专知论文

会员服务 ·

0

CASE · MoDELS · LLaMA · GPT-5 · 流 ·

Reconstructing Sepsis Trajectories from Clinical Case Reports using LLMs: the Textual Time Series Corpus for Sepsis

翻译：利用大语言模型从临床病例报告中重建脓毒症病程轨迹：脓毒症文本时间序列语料库

Shahriar Noroozizadeh,Jeremy C. Weiss

from arxiv, Conference on Health, Inference, and Learning (CHIL 2026)

Clinical case reports and discharge summaries may be the most complete and accurate summarization of patient encounters, yet they are finalized, i.e., timestamped after the encounter. Complementary structured data streams become available sooner but suffer from incompleteness. To train models and algorithms on more complete and temporally fine-grained data, we construct a pipeline to phenotype, extract, and annotate time-localized findings within case reports using large language models. We apply our pipeline to generate an open-access textual time series corpus for Sepsis-3 comprising 2,139 case reports from the PubMed-Open Access (PMOA) Subset. To validate our system, we apply it to PMOA and timeline annotations from i2b2/MIMIC-IV and compare the results to physician-expert annotations. We show high recovery rates of clinical findings (event match rates: GPT-5--0.93, Llama 3.3 70B Instruct--0.76) and strong temporal ordering (concordance: GPT-5--0.965, Llama 3.3 70B Instruct--0.908). Our work characterizes the ability of LLMs to time-localize clinical findings in text, illustrating the limitations of LLM use for temporal reconstruction and providing several potential avenues of improvement via multimodal integration.

翻译：临床病例报告和出院小结可能是对患者就诊过程最完整、最准确的总结，但它们在就诊结束后才最终定稿，即带有时间戳。互补的结构化数据流虽然更早可用，但存在不完整性。为了在更完整且时间粒度更细的数据上训练模型和算法，我们构建了一个流水线，利用大语言模型对病例报告中的时间定位发现进行表型分析、提取和注释。我们应用该流水线生成了一个开放获取的脓毒症-3文本时间序列语料库，包含来自PubMed开放获取子集的2,139份病例报告。为验证系统性能，我们将其应用于PMOA及i2b2/MIMIC-IV的时间线注释，并将结果与医学专家注释进行对比。结果显示临床发现的高回收率（事件匹配率：GPT-5--0.93，Llama 3.3 70B Instruct--0.76）和强时间排序一致性（一致性指数：GPT-5--0.965，Llama 3.3 70B Instruct--0.908）。本研究揭示了大语言模型在文本中对临床发现进行时间定位的能力，说明了其在时间重建应用中的局限性，并提出了通过多模态集成进行改进的若干潜在方向。

0

相关内容

CASE

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

时间序列基础模型综述：用大型语言模型推广时间序列表征

时间序列基础模型综述：用大型语言模型推广时间序列表征

专知会员服务

68+阅读 · 2024年5月11日

【CMU博士论文】建模流行病学时间序列，66页·pdf

【CMU博士论文】建模流行病学时间序列，66页·pdf

专知会员服务

27+阅读 · 2023年10月3日

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

专知会员服务

25+阅读 · 2023年9月16日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

专知会员服务

89+阅读 · 2022年3月1日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

推荐中的序列化建模：Session-based neural recommendation

推荐中的序列化建模：Session-based neural recommendation

机器学习研究会

18+阅读 · 2017年11月5日

如何在Python中用LSTM网络进行时间序列预测

如何在Python中用LSTM网络进行时间序列预测

AI100

17+阅读 · 2017年8月5日

如何用Python做舆情时间序列可视化？

如何用Python做舆情时间序列可视化？

CocoaChina

11+阅读 · 2017年7月21日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于体内过程分析的中西药注射剂联合序贯用药“时间窗”的探索性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

骨髓间充质干细胞生物反应器的构建及对脓毒症大鼠免疫失衡的双向调控作用

国家自然科学基金

0+阅读 · 2014年12月31日

TLR4活化树突状细胞调节中性粒细胞参与脓毒症发生发展的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Medical Heuristic Learning: An LLM-Driven Framework for Interpretable and Auditable Clinical Decision Rules

Arxiv

0+阅读 · 6月16日

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

Arxiv

0+阅读 · 6月16日

From Brewing to Resolution: Tracing the Internal Lifecycle of Code Reasoning in LLMs

Arxiv

0+阅读 · 6月16日

Informative Missingness to Generate Irregular Clinical Time Series

Arxiv

0+阅读 · 6月14日

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

Arxiv

0+阅读 · 6月14日

Adaptive Identification and Modeling of Clinical Pathways with Process Mining

Arxiv

0+阅读 · 6月12日

Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction

Arxiv

0+阅读 · 6月10日

Clinically Grounded Privacy Evaluation of Medical LMs

Arxiv

0+阅读 · 6月8日

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

Arxiv

0+阅读 · 5月28日

SepsisAI Orchestrator: A Containerized and Scalable Platform for Deploying AI Models and Real-Time Monitoring in Early Sepsis Detection

Arxiv

0+阅读 · 5月21日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

时间序列基础模型综述：用大型语言模型推广时间序列表征

时间序列基础模型综述：用大型语言模型推广时间序列表征

专知会员服务

68+阅读 · 2024年5月11日

【CMU博士论文】建模流行病学时间序列，66页·pdf

【CMU博士论文】建模流行病学时间序列，66页·pdf

专知会员服务

27+阅读 · 2023年10月3日

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

专知会员服务

25+阅读 · 2023年9月16日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

专知会员服务

35+阅读 · 2022年8月15日

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

AAAI2022最新「时序数据处理」报告，127页PPT阐述时序数据处理以及医疗应用进展

专知会员服务

89+阅读 · 2022年3月1日

电子病历文本挖掘研究综述

专知会员服务

73+阅读 · 2021年3月27日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

【干货书】基于统计和机器学习的实用时间序列分析预测，Time Series Analysis Prediction

专知

18+阅读 · 2022年4月9日

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

【CMU-Amazon】时间序列预测：理论与实践，379页ppt阐述大规模时序预测工具与方法

专知

31+阅读 · 2020年4月24日

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

开源新书《时间序列分析，数据/方法/应用》，6章110页pdf带你了解最新进展，附下载

专知

92+阅读 · 2019年11月20日

R语言时间序列分析

R语言时间序列分析

R语言中文社区

12+阅读 · 2018年11月19日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

R语言之数据分析高级方法「时间序列」

R语言之数据分析高级方法「时间序列」

R语言中文社区

17+阅读 · 2018年4月24日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

推荐中的序列化建模：Session-based neural recommendation

推荐中的序列化建模：Session-based neural recommendation

机器学习研究会

18+阅读 · 2017年11月5日

如何在Python中用LSTM网络进行时间序列预测

如何在Python中用LSTM网络进行时间序列预测

AI100

17+阅读 · 2017年8月5日

如何用Python做舆情时间序列可视化？

如何用Python做舆情时间序列可视化？

CocoaChina

11+阅读 · 2017年7月21日

相关论文

Medical Heuristic Learning: An LLM-Driven Framework for Interpretable and Auditable Clinical Decision Rules

Arxiv

0+阅读 · 6月16日

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

Arxiv

0+阅读 · 6月16日

From Brewing to Resolution: Tracing the Internal Lifecycle of Code Reasoning in LLMs

Arxiv

0+阅读 · 6月16日

Informative Missingness to Generate Irregular Clinical Time Series

Arxiv

0+阅读 · 6月14日

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

Arxiv

0+阅读 · 6月14日

Adaptive Identification and Modeling of Clinical Pathways with Process Mining

Arxiv

0+阅读 · 6月12日

Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction

Arxiv

0+阅读 · 6月10日

Clinically Grounded Privacy Evaluation of Medical LMs

Arxiv

0+阅读 · 6月8日

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

Arxiv

0+阅读 · 5月28日

SepsisAI Orchestrator: A Containerized and Scalable Platform for Deploying AI Models and Real-Time Monitoring in Early Sepsis Detection

Arxiv

0+阅读 · 5月21日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

一种乳腺癌分子特异性手术导航成像方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于体内过程分析的中西药注射剂联合序贯用药“时间窗”的探索性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

骨髓间充质干细胞生物反应器的构建及对脓毒症大鼠免疫失衡的双向调控作用

国家自然科学基金

0+阅读 · 2014年12月31日

TLR4活化树突状细胞调节中性粒细胞参与脓毒症发生发展的机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员