We present EDEN (Emergency Department Electronic Notes), a new and unique large-scale corpus of clinical notes produced in Emergency Departments of Italian hospitals. The corpus, in its current version, is composed of approximately 4 million clinical notes fully anonymized, covering diverse phases of patient care during the stay in the emergency department. In addition, a subset of about six thousand notes has been manually annotated by clinical experts through a structured Case Report Form (CRF) containing 132 items relevant for two patient situations in emergency departments, dyspnea and loss of consciousness. Items may assume numerical values (e.g., for blood saturation), categorical (e.g., for level of consciousness ), binary (e.g., for presence of traumas), and mixed value types. The annotation process involved multiple clinicians and underwent iterative revision to resolve ambiguities in item formulation, resulting in a richly structured (although high imbalanced) resource. The dataset aims to fill a relevant gap of data able to support both the development and the use of Large Language Models in concrete medical applications. We describe the data collection protocol, the on-site anonymisation pipeline, corpus statistics, and the annotation scheme. Finally, we propose CRF-filling as a novel structured information extraction benchmark, and provide zero-shot baseline resulting from Gemma-27B and MedGemma-27B. To the best of our knowledge, the EDEN dataset is the largest freely available corpus of clinical notes existing for the Italian language.


翻译:我们提出EDEN(急诊科电子笔记),这是一个新颖且独特的大规模语料库,收录了意大利医院急诊科生成的临床笔记。该语料库当前版本包含约400万份完全匿名的临床笔记,覆盖患者在急诊科停留期间的不同护理阶段。此外,约六千份笔记的子集已由临床专家通过结构化病例报告表(CRF)进行人工标注,该表格包含132个条目,涵盖急诊科中两种常见患者情况(呼吸困难和意识丧失)。条目可能包含数值型(如血氧饱和度)、类别型(如意识水平)、二元型(如创伤存在性)及混合值类型。标注过程涉及多名临床医生,并经过迭代修订以解决条目表述中的歧义,最终形成高度结构化的资源(尽管类别分布高度不平衡)。该数据集旨在填补实际医疗应用中支持大语言模型开发与使用的关键数据缺口。我们描述了数据收集协议、现场匿名化管道、语料库统计及标注方案。最后,我们提出将CRF填充作为一种新型结构化信息抽取基准,并提供了Gemma-27B和MedGemma-27B的零样本基线结果。据我们所知,EDEN数据集是现有意大利语临床笔记中最大的免费可用语料库。

0
下载
关闭预览

相关内容

利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
「中文电子病历命名实体识别」的研究与进展
专知会员服务
30+阅读 · 2022年11月5日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
利用表示学习推动多机构电子健康记录数据研究
专知会员服务
16+阅读 · 2025年2月17日
「中文电子病历命名实体识别」的研究与进展
专知会员服务
30+阅读 · 2022年11月5日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员