SEDA：一种用于提升基于网格的非连续命名实体识别模型的自适应实体中心数据增强方法 (SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Discontinuous NER Models)

Named Entity Recognition (NER) is a critical task in natural language processing, yet it remains particularly challenging for discontinuous entities. The primary difficulty lies in text segmentation, as traditional methods often missegment or entirely miss cross-sentence discontinuous entities, significantly affecting recognition accuracy. Therefore, we aim to address the segmentation and omission issues associated with such entities. Recent studies have shown that grid-tagging methods are effective for information extraction due to their flexible tagging schemes and robust architectures. Building on this, we integrate image data augmentation techniques, such as cropping, scaling, and padding, into grid-based models to enhance their ability to recognize discontinuous entities and handle segmentation challenges. Experimental results demonstrate that traditional segmentation methods often fail to capture cross-sentence discontinuous entities, leading to decreased performance. In contrast, our augmented grid models achieve notable improvements. Evaluations on the CADEC, ShARe13, and ShARe14 datasets show F1 score gains of 1-2.5% overall and 3.7-8.4% for discontinuous entities, confirming the effectiveness of our approach.

翻译：命名实体识别（NER）是自然语言处理中的关键任务，但对于非连续实体而言仍极具挑战性。主要困难在于文本分割，传统方法常错误分割或完全遗漏跨句非连续实体，显著影响识别准确率。因此，我们旨在解决此类实体相关的分割与遗漏问题。近期研究表明，网格标注方法因其灵活的标注方案和鲁棒的架构，在信息抽取中表现优异。基于此，我们将图像数据增强技术（如裁剪、缩放和填充）整合到基于网格的模型中，以增强其识别非连续实体及处理分割挑战的能力。实验结果表明，传统分割方法常无法捕捉跨句非连续实体，导致性能下降。相比之下，我们增强后的网格模型取得了显著提升。在CADEC、ShARe13和ShARe14数据集上的评估显示，整体F1分数提高了1-2.5%，非连续实体的F1分数提升达3.7-8.4%，验证了本方法的有效性。

相关内容

实体

关注 12

实体（entity）是有可区别性且独立存在的某种事物，但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里，这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面，实体可以被视为一全包的词语。有时，实体被当做本质的广义，不论即指的是否为物质上的存在，如时常会指涉到的无物质形式的实体－语言。更有甚者，实体有时亦指存在或本质本身。在法律上，实体是指能具有权利和义务的事物。这通常是指法人，但也包括自然人。

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

9+阅读 · 2025年9月3日

【ICML2023】SEGA:结构熵引导的图对比学习锚视图

专知会员服务

23+阅读 · 2023年5月10日

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日