This paper introduces GELATO (Government, Executive, Legislative, and Treaty Ontology), a dataset of U.S. House and Senate bills from the 118th Congress annotated using a novel two-level named entity recognition ontology designed for U.S. legislative texts. We fine-tune transformer-based models (BERT, RoBERTa) of different architectures and sizes on this dataset for first-level prediction. We then use LLMs with optimized prompts to complete the second level prediction. The strong performance of RoBERTa and relatively weak performance of BERT models, as well as the application of LLMs as second-level predictors, support future research in legislative NER or downstream tasks using these model combinations as extraction tools.


翻译:本文介绍GELATO(政府、行政、立法与条约本体)数据集,该数据集包含基于美国立法文本设计的新型双层命名实体识别本体标注的第118届国会众议院与参议院法案。我们在此数据集上对不同架构与规模的基于Transformer的模型(BERT、RoBERTa)进行微调以完成第一层级预测,随后采用具有优化提示的大型语言模型完成第二层级预测。RoBERTa模型的优异表现与BERT模型的相对弱势表现,以及大型语言模型作为第二层级预测器的应用,为未来使用此类模型组合作为抽取工具的立法命名实体识别或下游任务研究提供了支持。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
面向装备试验鉴定领域数据治理的知识图谱本体构建
专知会员服务
86+阅读 · 2024年3月25日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
157+阅读 · 2020年4月21日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
33+阅读 · 2019年3月29日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
专栏 | 用神经推理来帮助命名实体识别
机器之心
15+阅读 · 2018年11月8日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
命名实体识别从数据集到算法实现
专知
56+阅读 · 2018年6月28日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
2+阅读 · 4月11日
相关VIP内容
面向装备试验鉴定领域数据治理的知识图谱本体构建
专知会员服务
86+阅读 · 2024年3月25日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
157+阅读 · 2020年4月21日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员