Efficient and Reliable Estimation of Named Entity Linking Quality: A Case Study on GutBrainIE - 专知论文

会员服务 ·

0

标注 · 准确率 · 语料 · 语料库 · 命名实体 ·

Efficient and Reliable Estimation of Named Entity Linking Quality: A Case Study on GutBrainIE

翻译：命名实体链接质量的高效可靠评估：以GutBrainIE为例研究

Marco Martinelli,Stefano Marchesin,Gianmaria Silvello

from arxiv, Submitted to IRCDL 2026: 22nd Conference on Information and Research Science Connecting to Digital and Library Science, February 19-20 2026, Modena, Italy

Named Entity Linking (NEL) is a core component of biomedical Information Extraction (IE) pipelines, yet assessing its quality at scale is challenging due to the high cost of expert annotations and the large size of corpora. In this paper, we present a sampling-based framework to estimate the NEL accuracy of large-scale IE corpora under statistical guarantees and constrained annotation budgets. We frame NEL accuracy estimation as a constrained optimization problem, where the objective is to minimize expected annotation cost subject to a target Margin of Error (MoE) for the corpus-level accuracy estimate. Building on recent works on knowledge graph accuracy estimation, we adapt Stratified Two-Stage Cluster Sampling (STWCS) to the NEL setting, defining label-based strata and global surface-form clusters in a way that is independent of NEL annotations. Applied to 11,184 NEL annotations in GutBrainIE -- a new biomedical corpus openly released in fall 2025 -- our framework reaches a MoE $\leq 0.05$ by manually annotating only 2,749 triples (24.6%), leading to an overall accuracy estimate of $0.915 \pm 0.0473$. A time-based cost model and simulations against a Simple Random Sampling (SRS) baseline show that our design reduces expert annotation time by about 29% at fixed sample size. The framework is generic and can be applied to other NEL benchmarks and IE pipelines that require scalable and statistically robust accuracy assessment.

翻译：命名实体链接（NEL）是生物医学信息抽取（IE）流程的核心组件，然而由于专家标注成本高昂且语料库规模庞大，大规模评估其质量具有挑战性。本文提出一种基于抽样的框架，用于在统计保证和有限标注预算下估计大规模IE语料库的NEL准确率。我们将NEL准确率估计构建为一个约束优化问题，其目标是在语料库级准确率估计的目标误差边界（MoE）约束下最小化预期标注成本。基于近期知识图谱准确率估计的研究，我们将分层两阶段整群抽样（STWCS）方法适配至NEL场景，定义了基于标签的分层和全局表层形式聚类，且该方法独立于NEL标注结果。在GutBrainIE（2025年秋季公开发布的新型生物医学语料库）的11,184个NEL标注数据上应用本框架，仅通过人工标注2,749个三元组（24.6%）即可实现误差边界≤0.05，最终获得整体准确率估计值为$0.915 \pm 0.0473$。基于时间的成本模型及与简单随机抽样（SRS）基线的对比模拟表明，在固定样本量下我们的设计可减少约29%的专家标注时间。该框架具有通用性，可应用于其他需要可扩展且统计稳健的准确率评估的NEL基准测试和IE流程。

0

相关内容

基于深度神经网络的实体链接研究综述

基于深度神经网络的实体链接研究综述

专知会员服务

15+阅读 · 2024年9月8日

「中文电子病历命名实体识别」的研究与进展

「中文电子病历命名实体识别」的研究与进展

专知会员服务

31+阅读 · 2022年11月5日

中文领域命名实体识别综述

专知会员服务

72+阅读 · 2021年8月20日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

62+阅读 · 2020年5月15日

【中科院】命名实体识别技术综述

专知会员服务

158+阅读 · 2020年4月21日

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

专知会员服务

24+阅读 · 2020年4月18日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

93+阅读 · 2020年3月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

53+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

【中科院】命名实体识别技术综述

【中科院】命名实体识别技术综述

专知

16+阅读 · 2020年4月21日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

一文读懂命名实体识别

一文读懂命名实体识别

AINLP

32+阅读 · 2019年4月23日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

命名实体识别（NER）综述

命名实体识别（NER）综述

AI研习社

66+阅读 · 2019年1月30日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

神经网络结构在命名实体识别（NER）中的应用

神经网络结构在命名实体识别（NER）中的应用

全球人工智能

11+阅读 · 2018年4月5日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式词元编码的大规模名字路由表压缩与查找技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Domain-Specific Curated Benchmark for Entity and Document-Level Relation Extraction

Arxiv

0+阅读 · 2月4日

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Efficient Evaluation of LLM Performance with Statistical Guarantees

Arxiv

0+阅读 · 1月29日

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

Arxiv

0+阅读 · 1月27日

Assessment of Generative Named Entity Recognition in the Era of Large Language Models

Arxiv

0+阅读 · 1月25日

The Tag is the Signal: URL-Agnostic Credibility Scoring for Messages on Telegram

Arxiv

0+阅读 · 1月19日

It's All About the Confidence: An Unsupervised Approach for Multilingual Historical Entity Linking using Large Language Models

Arxiv

0+阅读 · 1月13日

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Arxiv

0+阅读 · 1月1日

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Discontinuous NER Models

Arxiv

0+阅读 · 2025年12月30日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

26+阅读 · 2020年3月13日

VIP会员

文章信息

相关主题

最新内容

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

0+阅读 · 13分钟前

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

13+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

8+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

7+阅读 · 7月16日

相关VIP内容

基于深度神经网络的实体链接研究综述

基于深度神经网络的实体链接研究综述

专知会员服务

15+阅读 · 2024年9月8日

「中文电子病历命名实体识别」的研究与进展

「中文电子病历命名实体识别」的研究与进展

专知会员服务

31+阅读 · 2022年11月5日

中文领域命名实体识别综述

专知会员服务

72+阅读 · 2021年8月20日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

62+阅读 · 2020年5月15日

【中科院】命名实体识别技术综述

专知会员服务

158+阅读 · 2020年4月21日

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

【ACL2020】TriggerNER:使用实体触发器学习作为解释用于命名实体识别

专知会员服务

24+阅读 · 2020年4月18日

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

【TKDE2020-南洋理工】深度学习命名实体识别最新版，207篇参考文献

专知会员服务

93+阅读 · 2020年3月17日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

53+阅读 · 2019年12月28日

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

【AAAI2020论文-清华大学】Enhanced Meta-Learning for Cross-lingual Named Entity Recognition with Minimal Resources，最小资源增强的元学习跨语言命名实体识别

专知会员服务

31+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

《无人机蜂群通信技术研究》50页

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

相关资讯

【中科院】命名实体识别技术综述

【中科院】命名实体识别技术综述

专知

16+阅读 · 2020年4月21日

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

百度实体链接比赛后记：行为建模和实体链接（含代码分享）

PaperWeekly

21+阅读 · 2019年9月5日

一文读懂命名实体识别

一文读懂命名实体识别

AINLP

32+阅读 · 2019年4月23日

面向新闻媒体的命名实体识别技术

面向新闻媒体的命名实体识别技术

PaperWeekly

18+阅读 · 2019年4月17日

命名实体识别（NER）综述

命名实体识别（NER）综述

AI研习社

66+阅读 · 2019年1月30日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

基于Lattice LSTM的命名实体识别

基于Lattice LSTM的命名实体识别

微信AI

48+阅读 · 2018年10月19日

命名实体识别从数据集到算法实现

命名实体识别从数据集到算法实现

专知

56+阅读 · 2018年6月28日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

神经网络结构在命名实体识别（NER）中的应用

神经网络结构在命名实体识别（NER）中的应用

全球人工智能

11+阅读 · 2018年4月5日

相关论文

A Domain-Specific Curated Benchmark for Entity and Document-Level Relation Extraction

Arxiv

0+阅读 · 2月4日

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Efficient Evaluation of LLM Performance with Statistical Guarantees

Arxiv

0+阅读 · 1月29日

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

Arxiv

0+阅读 · 1月27日

Assessment of Generative Named Entity Recognition in the Era of Large Language Models

Arxiv

0+阅读 · 1月25日

The Tag is the Signal: URL-Agnostic Credibility Scoring for Messages on Telegram

Arxiv

0+阅读 · 1月19日

It's All About the Confidence: An Unsupervised Approach for Multilingual Historical Entity Linking using Large Language Models

Arxiv

0+阅读 · 1月13日

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Arxiv

0+阅读 · 1月1日

SEDA: A Self-Adapted Entity-Centric Data Augmentation for Boosting Gird-based Discontinuous NER Models

Arxiv

0+阅读 · 2025年12月30日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

26+阅读 · 2020年3月13日

相关基金

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式词元编码的大规模名字路由表压缩与查找技术的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员