Event extraction identifies the central aspects of events from text. It supports event understanding and analysis, which is crucial for tasks such as informed decision-making in emergencies. Therefore, it is necessary to develop automated event extraction approaches. However, existing datasets for algorithm development have limitations, including limited coverage of event types in closed-domain settings and a lack of large, manually verified dataset in open-domain settings. To address these limitations, we create EVENT5Ws , a large, manually annotated, and statistically verified open-domain event extraction dataset. We design a systematic annotation pipeline to create the dataset and provide empirical insights into annotation complexity. Using EVENT5Ws, we evaluate state-of-the-art pre-trained large language models and establish a benchmark for future research. We further show that models trained on EVENT5Ws generalize effectively to datasets from different geographical contexts, which demonstrates its potential for developing generalizable algorithms. Finally, we summarize the lessons learned during the dataset development and provide recommendations to support future large-scale dataset development.


翻译:事件抽取旨在从文本中识别事件的核心要素,为事件理解与分析提供支持,这对应急响应中的知情决策等任务至关重要。因此,开发自动化事件抽取方法具有必要性。然而,现有算法开发数据集存在局限性:封闭域场景中事件类型覆盖有限,且开放域场景中缺乏大规模人工验证数据集。为克服上述局限,我们构建了EVENT5Ws——一个经人工标注与统计验证的大规模开放域事件抽取数据集。我们设计了系统化的标注流程以创建该数据集,并提供了关于标注复杂性的实证洞见。利用EVENT5Ws,我们评估了当前最优的预训练大语言模型,并为未来研究建立了基准。进一步研究表明,在EVENT5Ws上训练的模型能够有效泛化至不同地理背景的数据集,这彰显了其开发可泛化算法的潜力。最后,我们总结了数据集开发过程中的经验教训,并为未来大规模数据集开发提供了建议。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
面向研究问题的深度学习事件抽取综述
专知会员服务
26+阅读 · 2024年12月9日
「深度学习事件抽取」最新2022研究综述
专知会员服务
72+阅读 · 2022年6月2日
北航《深度学习事件抽取》文献综述和当前趋势
专知会员服务
87+阅读 · 2021年7月6日
专知会员服务
24+阅读 · 2021年6月19日
专知会员服务
80+阅读 · 2021年5月27日
NLP 事件抽取综述(中)—— 模型篇
深度学习自然语言处理
21+阅读 · 2020年12月28日
【SCIR笔记】文档级事件抽取简述
深度学习自然语言处理
17+阅读 · 2020年7月30日
综述 | 事件抽取及推理 (下)
开放知识图谱
38+阅读 · 2019年1月14日
论文浅尝 | Zero-Shot Transfer Learning for Event Extraction
开放知识图谱
26+阅读 · 2018年11月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员