Clinical narratives encode temporal dynamics essential for modeling patient trajectories, yet large-scale temporally annotated resources are scarce. We introduce PMOA-TTS, a corpus of 124,699 single-patient PubMed Open Access case reports converted into structured textual timelines of (event, time) pairs using a scalable large-language-model pipeline (Llama 3.3 70B and DeepSeek-R1). The corpus comprises over 5.6 million timestamped events, alongside extracted demographics and diagnoses. Technical validation uses a clinician-curated gold set and three measures: semantic event matching, temporal concordance (c-index), and alignment error summarized with Area Under the Log-Time CDF (AULTC). We benchmark alternative prompting and model choices and provide documentation to support reproduction. PMOA-TTS enables research on timeline extraction, temporal reasoning, survival modeling and event forecasting from narrative text, and offers broad diagnostic and demographic coverage. Data and code are openly available in public repositories.


翻译:临床叙事编码了对建模患者轨迹至关重要的时间动态,然而大规模的时间标注资源十分稀缺。我们介绍了PMOA-TTS,这是一个包含124,699份单患者PubMed开放获取病例报告的语料库,这些报告通过一个可扩展的大语言模型流程(Llama 3.3 70B 和 DeepSeek-R1)被转换为结构化的(事件,时间)对文本时间线。该语料库包含超过560万个带时间戳的事件,以及提取的人口统计学信息和诊断信息。技术验证使用了一个由临床医生策划的金标准集和三项指标:语义事件匹配、时间一致性(c-index)以及用对数时间累积分布函数下面积(AULTC)汇总的对齐误差。我们对替代提示策略和模型选择进行了基准测试,并提供了支持复现的文档。PMOA-TTS支持从叙事文本中进行时间线提取、时序推理、生存建模和事件预测的研究,并提供了广泛的诊断和人口统计学覆盖范围。数据和代码已在公共存储库中开放获取。

0
下载
关闭预览

相关内容

【CMU博士论文】《迈向实用的时间序列智能》
专知会员服务
18+阅读 · 2025年5月29日
《使用生成式大语言模型进行多语言事件提取》最新85页
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
收藏 | 中文公开聊天语料库及使用方法(附链接)
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
相关VIP内容
【CMU博士论文】《迈向实用的时间序列智能》
专知会员服务
18+阅读 · 2025年5月29日
《使用生成式大语言模型进行多语言事件提取》最新85页
【NeurIPS2023】大型语言模型是零样本的时间序列预测者
专知会员服务
47+阅读 · 2023年10月13日
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员