The GELATO Dataset for Legislative NER - 专知论文

会员服务 ·

0

数据集 · 命名实体 · 实体抽取 · 识别 · 实体 ·

The GELATO Dataset for Legislative NER

翻译：GELATO立法命名实体识别数据集

Matthew Flynn,Timothy Obiso,Sam Newman

from arxiv, Accepted at LREC 2026

This paper introduces GELATO (Government, Executive, Legislative, and Treaty Ontology), a dataset of U.S. House and Senate bills from the 118th Congress annotated using a novel two-level named entity recognition ontology designed for U.S. legislative texts. We fine-tune transformer-based models (BERT, RoBERTa) of different architectures and sizes on this dataset for first-level prediction. We then use LLMs with optimized prompts to complete the second level prediction. The strong performance of RoBERTa and relatively weak performance of BERT models, as well as the application of LLMs as second-level predictors, support future research in legislative NER or downstream tasks using these model combinations as extraction tools.

翻译：本文介绍GELATO（政府、行政、立法与条约本体）数据集，该数据集包含基于美国立法文本设计的新型双层命名实体识别本体标注的第118届国会众议院与参议院法案。我们在此数据集上对不同架构与规模的基于Transformer的模型（BERT、RoBERTa）进行微调以完成第一层级预测，随后采用具有优化提示的大型语言模型完成第二层级预测。RoBERTa模型的优异表现与BERT模型的相对弱势表现，以及大型语言模型作为第二层级预测器的应用，为未来使用此类模型组合作为抽取工具的立法命名实体识别或下游任务研究提供了支持。

0

相关内容

数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

面向装备试验鉴定领域数据治理的知识图谱本体构建

面向装备试验鉴定领域数据治理的知识图谱本体构建

专知会员服务

87+阅读 · 2024年3月25日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

35+阅读 · 2022年9月6日

【法律知识图谱】《在法律决策中构建基于事件的知识图谱工具》含源代码

【法律知识图谱】《在法律决策中构建基于事件的知识图谱工具》含源代码

专知会员服务

68+阅读 · 2022年8月29日

O’Reilly报告：知识图谱崛起——面向现代数据集成和数据结构体系，“The Rise of the Knowledge Graph——Toward Modern Data Integration and the Data Fabric Architecture”

O’Reilly报告：知识图谱崛起——面向现代数据集成和数据结构体系，“The Rise of the Knowledge Graph——Toward Modern Data Integration and the Data Fabric Architecture”

专知会员服务

49+阅读 · 2022年2月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

61+阅读 · 2020年5月15日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

92+阅读 · 2020年3月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

命名实体识别新SOTA：改进Transformer模型

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

一文读懂命名实体识别

一文读懂命名实体识别

人工智能头条

33+阅读 · 2019年3月29日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

专栏 | 用神经推理来帮助命名实体识别

专栏 | 用神经推理来帮助命名实体识别

机器之心

15+阅读 · 2018年11月8日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

Named Entity Recognition of Historical Texts via Large Language Model

Arxiv

0+阅读 · 4月28日

A dataset of early blockchain-registered AI agents on Ethereum

Arxiv

0+阅读 · 4月24日

SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

Arxiv

0+阅读 · 4月22日

ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian

Arxiv

0+阅读 · 3月31日

Ontology-Compliant Knowledge Graphs

Arxiv

0+阅读 · 3月29日

CodeNER: Code Prompting for Named Entity Recognition

Arxiv

0+阅读 · 3月26日

Tursio for Credit Unions: Structured Data Search with Automated Context Graphs

Arxiv

0+阅读 · 3月11日

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

Arxiv

0+阅读 · 3月7日

Learning Nested Named Entity Recognition from Flat Annotations

Arxiv

0+阅读 · 2月28日

A Dataset for Named Entity Recognition and Relation Extraction from Art-historical Image Descriptions

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

1+阅读 · 今天15:13

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

1+阅读 · 今天15:08

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

1+阅读 · 今天15:06

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

2+阅读 · 今天14:53

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

2+阅读 · 今天14:51

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

3+阅读 · 今天14:47

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

3+阅读 · 今天14:42

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

2+阅读 · 今天14:38

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

13+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

面向装备试验鉴定领域数据治理的知识图谱本体构建

面向装备试验鉴定领域数据治理的知识图谱本体构建

专知会员服务

87+阅读 · 2024年3月25日

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

【AI与法律 - 博士论文】《用于分析和搜索法律数据的知识图谱》维也纳经济大学

专知会员服务

35+阅读 · 2022年9月6日

【法律知识图谱】《在法律决策中构建基于事件的知识图谱工具》含源代码

【法律知识图谱】《在法律决策中构建基于事件的知识图谱工具》含源代码

专知会员服务

68+阅读 · 2022年8月29日

O’Reilly报告：知识图谱崛起——面向现代数据集成和数据结构体系，“The Rise of the Knowledge Graph——Toward Modern Data Integration and the Data Fabric Architecture”

O’Reilly报告：知识图谱崛起——面向现代数据集成和数据结构体系，“The Rise of the Knowledge Graph——Toward Modern Data Integration and the Data Fabric Architecture”

专知会员服务

49+阅读 · 2022年2月18日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

61+阅读 · 2020年5月15日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

92+阅读 · 2020年3月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

命名实体识别新SOTA：改进Transformer模型

命名实体识别新SOTA：改进Transformer模型

AI科技评论

17+阅读 · 2019年11月26日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

一文读懂命名实体识别

一文读懂命名实体识别

人工智能头条

33+阅读 · 2019年3月29日

跨多个异构数据源的实体对齐

跨多个异构数据源的实体对齐

FCS

15+阅读 · 2019年3月13日

专栏 | 用神经推理来帮助命名实体识别

专栏 | 用神经推理来帮助命名实体识别

机器之心

15+阅读 · 2018年11月8日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

【论文推荐】最新六篇命名实体识别相关论文—跨专业医学、阿拉伯命名实体、中国临床、深度多任务学习、多模态、图卷积网络

专知

54+阅读 · 2018年5月21日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

相关论文

Named Entity Recognition of Historical Texts via Large Language Model

Arxiv

0+阅读 · 4月28日

A dataset of early blockchain-registered AI agents on Ethereum

Arxiv

0+阅读 · 4月24日

SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition

Arxiv

0+阅读 · 4月22日

ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian

Arxiv

0+阅读 · 3月31日

Ontology-Compliant Knowledge Graphs

Arxiv

0+阅读 · 3月29日

CodeNER: Code Prompting for Named Entity Recognition

Arxiv

0+阅读 · 3月26日

Tursio for Credit Unions: Structured Data Search with Automated Context Graphs

Arxiv

0+阅读 · 3月11日

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

Arxiv

0+阅读 · 3月7日

Learning Nested Named Entity Recognition from Flat Annotations

Arxiv

0+阅读 · 2月28日

A Dataset for Named Entity Recognition and Relation Extraction from Art-historical Image Descriptions

Arxiv

0+阅读 · 2月22日

相关基金

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向甲骨学知识图谱的实体发现及语义关系挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员