Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks - 专知论文

会员服务 ·

0

事件 · 数据集 · 快速生成 · 分类器 · 示例 ·

2023 年 4 月 3 日

Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks

翻译：无需字典构建个性化事件数据：一套实用技巧

Andrew Halterman,Philip A. Schrodt,Andreas Beger,Benjamin E. Bagozzi,Grace I. Scarborough

Event data, or structured records of ``who did what to whom'' that are automatically extracted from text, is an important source of data for scholars of international politics. The high cost of developing new event datasets, especially using automated systems that rely on hand-built dictionaries, means that most researchers draw on large, pre-existing datasets such as ICEWS rather than developing tailor-made event datasets optimized for their specific research question. This paper describes a ``bag of tricks'' for efficient, custom event data production, drawing on recent advances in natural language processing (NLP) that allow researchers to rapidly produce customized event datasets. The paper introduces techniques for training an event category classifier with active learning, identifying actors and the recipients of actions in text using large language models and standard machine learning classifiers and pretrained ``question-answering'' models from NLP, and resolving mentions of actors to their Wikipedia article to categorize them. We describe how these techniques produced the new POLECAT global event dataset that is intended to replace ICEWS, along with examples of how scholars can quickly produce smaller, custom event datasets. We publish example code and models to implement our new techniques.

翻译：事件数据，即从文本中自动提取的“谁对谁做了什么”的结构化记录，是国际政治学者重要的数据来源。由于开发新事件数据集（尤其依赖手工构建字典的自动化系统）成本高昂，大多数研究者只能使用诸如ICEWS之类的大型既有数据集，而无法针对具体研究问题定制最优的事件数据集。本文基于自然语言处理领域的最新进展，介绍了一套用于高效、定制化事件数据生成的“实用技巧”。这些技术使研究者能够快速生成定制化的事件数据集。具体包括：利用主动学习训练事件类别分类器；借助大语言模型、标准机器学习分类器及自然语言处理领域预训练的“问答”模型，识别文本中的行为主体及动作接受对象；并通过将行为主体提及项关联至其维基百科条目进行归类。我们阐述了这些技术如何生成旨在替代ICEWS的全球POLECAT新事件数据集，同时举例说明研究者如何快速生成规模较小、定制化的事件数据集。本文公开了实现这些新技术的示例代码与模型。

1

相关内容

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

专知会员服务

60+阅读 · 2022年5月5日

【Manning新书】自动机器学习实战，Automated Machine Learning in Action

【Manning新书】自动机器学习实战，Automated Machine Learning in Action

专知会员服务

95+阅读 · 2022年4月8日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2021】元自训练的少样本神经序列标记

专知会员服务

32+阅读 · 2021年7月2日

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

专知会员服务

53+阅读 · 2020年8月25日

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

专知会员服务

16+阅读 · 2020年7月20日

搜狗开源机器阅读理解工具箱

搜狗开源机器阅读理解工具箱

专知

19+阅读 · 2019年5月16日

一文带你读懂自然语言处理 - 事件提取

一文带你读懂自然语言处理 - 事件提取

AI研习社

10+阅读 · 2019年5月10日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【推荐】(Python)多种模型(Naive Bayes, SVM, CNN, LSTM, etc)实现推文情感分析

【推荐】(Python)多种模型(Naive Bayes, SVM, CNN, LSTM, etc)实现推文情感分析

机器学习研究会

13+阅读 · 2017年12月25日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于搜索反馈的移动用户个性化要素型事件摘要模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

miR-29b在Ang-II诱导肾小管上皮间充质转分化中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

基于溯源的高效智能的入侵检测与数据重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

语料标注标准的自动迁移研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于目标模型的横切关注点识别及语义连接点定义方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

星系光谱自动分析与特殊天体自动搜寻研究

国家自然科学基金

0+阅读 · 2012年12月31日

InSAR支持下数据与知识驱动的区域滑坡空间预测

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

Arxiv

0+阅读 · 2023年5月22日

Text-based Person Search without Parallel Image-Text Data

Arxiv

0+阅读 · 2023年5月22日

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

Arxiv

0+阅读 · 2023年5月19日

Collective Reasoning for Safe Autonomous Systems

Arxiv

0+阅读 · 2023年5月18日

Attacks on Online Learners: a Teacher-Student Analysis

Arxiv

0+阅读 · 2023年5月18日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

0+阅读 · 2023年5月18日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

Touch Your Heart: A Tone-aware Chatbot for Customer Care on Social Media

Arxiv

11+阅读 · 2018年3月8日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

【ACL2022教程】有限文本数据学习，Learning with Limited Text Data

专知会员服务

29+阅读 · 2022年5月22日

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

Meta最新WWW2022《联邦计算导论》教程，附77页ppt

专知会员服务

60+阅读 · 2022年5月5日

【Manning新书】自动机器学习实战，Automated Machine Learning in Action

【Manning新书】自动机器学习实战，Automated Machine Learning in Action

专知会员服务

95+阅读 · 2022年4月8日

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

105+阅读 · 2022年2月10日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2021】元自训练的少样本神经序列标记

专知会员服务

32+阅读 · 2021年7月2日

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

【KDD2020-Tutorial】自动推荐系统，Automated Recommendation System

专知会员服务

53+阅读 · 2020年8月25日

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

【论文推荐】针对公民投诉的时空分类法标签推荐 STAR: Spatio-Temporal Taxonomy-Aware Tag Recommendation for Citizen Complaints

专知会员服务

16+阅读 · 2020年7月20日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

搜狗开源机器阅读理解工具箱

搜狗开源机器阅读理解工具箱

专知

19+阅读 · 2019年5月16日

一文带你读懂自然语言处理 - 事件提取

一文带你读懂自然语言处理 - 事件提取

AI研习社

10+阅读 · 2019年5月10日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

【推荐】(Python)多种模型(Naive Bayes, SVM, CNN, LSTM, etc)实现推文情感分析

【推荐】(Python)多种模型(Naive Bayes, SVM, CNN, LSTM, etc)实现推文情感分析

机器学习研究会

13+阅读 · 2017年12月25日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

【推荐】SVM实例教程

【推荐】SVM实例教程

机器学习研究会

17+阅读 · 2017年8月26日

相关论文

A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

Arxiv

0+阅读 · 2023年5月22日

Text-based Person Search without Parallel Image-Text Data

Arxiv

0+阅读 · 2023年5月22日

QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

Arxiv

0+阅读 · 2023年5月19日

Collective Reasoning for Safe Autonomous Systems

Arxiv

0+阅读 · 2023年5月18日

Attacks on Online Learners: a Teacher-Student Analysis

Arxiv

0+阅读 · 2023年5月18日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

0+阅读 · 2023年5月18日

Time-Series Event Prediction with Evolutionary State Graph

Arxiv

14+阅读 · 2020年11月25日

Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data

Arxiv

12+阅读 · 2018年6月8日

Touch Your Heart: A Tone-aware Chatbot for Customer Care on Social Media

Arxiv

11+阅读 · 2018年3月8日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

相关基金

AG-WUS-PcG-lncRNA互作对梅多雌蕊发育的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于搜索反馈的移动用户个性化要素型事件摘要模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

miR-29b在Ang-II诱导肾小管上皮间充质转分化中的作用

国家自然科学基金

0+阅读 · 2013年12月31日

基于溯源的高效智能的入侵检测与数据重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

语料标注标准的自动迁移研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于目标模型的横切关注点识别及语义连接点定义方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

星系光谱自动分析与特殊天体自动搜寻研究

国家自然科学基金

0+阅读 · 2012年12月31日

InSAR支持下数据与知识驱动的区域滑坡空间预测

国家自然科学基金

0+阅读 · 2012年12月31日

基于list-mode数据的快速SART真3D PET断层重建算法的研究

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员