Nested named entity recognition identifies entities contained within other entities, but requires expensive multi-level annotation. While flat NER corpora exist abundantly, nested resources remain scarce. We investigate whether models can learn nested structure from flat annotations alone, evaluating four approaches: string inclusions (substring matching), entity corruption (pseudo-nested data), flat neutralization (reducing false negative signal), and a hybrid fine-tuned + LLM pipeline. On NEREL, a Russian benchmark with 29 entity types where 21% of entities are nested, our best combined method achieves 26.37% inner F1, closing 40% of the gap to full nested supervision. Code is available at https://github.com/fulstock/Learning-from-Flat-Annotations.


翻译:嵌套命名实体识别旨在识别包含在其他实体内部的实体,但需要昂贵的多层级标注。虽然平面NER语料库大量存在,但嵌套资源仍然稀缺。我们研究了模型是否能够仅从平面标注中学习嵌套结构,评估了四种方法:字符串包含(子串匹配)、实体破坏(伪嵌套数据)、平面中性化(减少假阴性信号)以及混合微调+LLM流水线。在NEREL(一个包含29种实体类型、其中21%的实体为嵌套的俄语基准数据集)上,我们最佳的组合方法实现了26.37%的内部F1分数,将完全嵌套监督的差距缩小了40%。代码可在 https://github.com/fulstock/Learning-from-Flat-Annotations 获取。

0
下载
关闭预览

相关内容

实体(entity)是有可区别性且独立存在的某种事物,但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里,这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面,实体可以被视为一全包的词语。有时,实体被当做本质的广义,不论即指的是否为物质上的存在,如时常会指涉到的无物质形式的实体-语言。更有甚者,实体有时亦指存在或本质本身。在法律上,实体是指能具有权利和义务的事物。这通常是指法人,但也包括自然人。
专知会员服务
71+阅读 · 2021年8月20日
专知会员服务
157+阅读 · 2020年4月21日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
专栏 | 用神经推理来帮助命名实体识别
机器之心
15+阅读 · 2018年11月8日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
命名实体识别从数据集到算法实现
专知
56+阅读 · 2018年6月28日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
神经网络结构在命名实体识别(NER)中的应用
全球人工智能
11+阅读 · 2018年4月5日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
26+阅读 · 2020年3月13日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
2+阅读 · 4月11日
相关VIP内容
相关资讯
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
专栏 | 用神经推理来帮助命名实体识别
机器之心
15+阅读 · 2018年11月8日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
命名实体识别从数据集到算法实现
专知
56+阅读 · 2018年6月28日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
神经网络结构在命名实体识别(NER)中的应用
全球人工智能
11+阅读 · 2018年4月5日
相关基金
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员