SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking - 专知论文

会员服务 ·

0

entity · 监督 · MoDELS · 代码 · 讲稿 ·

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

翻译：SynCABEL：面向生物医学实体链接的合成上下文增强方法

Adam Remaki,Christel Gérardin,Eulàlia Farré-Maduell,Martin Krallinger,Xavier Tannier

from arxiv, 7 pages, 5 figures

We present SynCABEL (Synthetic Contextualized Augmentation for Biomedical Entity Linking), a framework that addresses a central bottleneck in supervised biomedical entity linking (BEL): the scarcity of expert-annotated training data. SynCABEL leverages large language models to generate context-rich synthetic training examples for all candidate concepts in a target knowledge base, providing broad supervision without manual annotation. We demonstrate that SynCABEL, when combined with decoder-only models and guided inference, establishes new state-of-the-art results across three widely used multilingual benchmarks: MedMentions for English, QUAERO for French, and SPACCC for Spanish. Evaluating data efficiency, we show that SynCABEL reaches the performance of full human supervision using up to 60% less annotated data, substantially reducing reliance on labor-intensive and costly expert labeling. Finally, acknowledging that standard evaluation based on exact code matching often underestimates clinically valid predictions due to ontology redundancy, we introduce an LLM-as-a-judge protocol. This analysis reveals that SynCABEL significantly improves the rate of clinically valid predictions. Our synthetic datasets, models, and code are released to support reproducibility and future research.

翻译：我们提出SynCABEL（面向生物医学实体链接的合成上下文增强方法），该框架解决了监督式生物医学实体链接中的一个核心瓶颈：专家标注训练数据的匮乏。SynCABEL利用大语言模型为目标知识库中的所有候选概念生成上下文丰富的合成训练示例，无需人工标注即可提供广泛的监督信号。我们证明，当SynCABEL与仅解码器模型及引导式推理相结合时，在三个广泛使用的多语言基准测试（英语MedMentions、法语QUAERO和西班牙语SPACCC）上均取得了新的最佳结果。在数据效率评估中，SynCABEL仅需使用最多减少60%的标注数据即可达到完全人工监督的性能，显著降低了对劳动密集型且成本高昂的专家标注的依赖。此外，鉴于基于精确代码匹配的标准评估常因本体冗余而低估临床有效的预测，我们引入了LLM作为裁判的评估协议。该分析表明，SynCABEL显著提高了临床有效预测的比例。我们已公开合成数据集、模型及代码，以支持可重复研究和未来工作。

0

相关内容

entity

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

多模态检索增强生成综述

多模态检索增强生成综述

专知会员服务

40+阅读 · 2025年4月15日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

Cancer Cell综述｜AI用于肿瘤学中的多模态数据集成

Cancer Cell综述｜AI用于肿瘤学中的多模态数据集成

专知会员服务

35+阅读 · 2022年10月13日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【AAAI2020-清华-百度】学习医学文本的概念-上下文嵌入，Learning Conceptual-Contextual Embeddings for Medical Text

【AAAI2020-清华-百度】学习医学文本的概念-上下文嵌入，Learning Conceptual-Contextual Embeddings for Medical Text

专知会员服务

38+阅读 · 2020年3月14日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

黑龙江大学自然语言处理实验室

19+阅读 · 2017年12月14日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于弱监督学习的细粒度中医临床医学实体识别方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

Arxiv

0+阅读 · 6月13日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月11日

SynthICL: Scalable In-context Imitation Learning with Synthetic Data

Arxiv

0+阅读 · 6月6日

LinkNav: Surfacing Interconnected Information in Scientific Articles

Arxiv

0+阅读 · 6月4日

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm

Arxiv

0+阅读 · 5月28日

ICICLE: Expanding Retrieval with In-Context Documents

Arxiv

0+阅读 · 5月27日

Enhancing Clinical Trial Patient Matching through Knowledge Augmentation and Reasoning with Multi-Agent

Arxiv

0+阅读 · 5月15日

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

Arxiv

0+阅读 · 5月13日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 5月13日

Reconnecting Fragmented Citation Networks with Semantic Augmentation

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

3+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

3+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

24+阅读 · 2025年12月17日

多模态检索增强生成综述

多模态检索增强生成综述

专知会员服务

40+阅读 · 2025年4月15日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

Cancer Cell综述｜AI用于肿瘤学中的多模态数据集成

Cancer Cell综述｜AI用于肿瘤学中的多模态数据集成

专知会员服务

35+阅读 · 2022年10月13日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【AAAI2020-清华-百度】学习医学文本的概念-上下文嵌入，Learning Conceptual-Contextual Embeddings for Medical Text

【AAAI2020-清华-百度】学习医学文本的概念-上下文嵌入，Learning Conceptual-Contextual Embeddings for Medical Text

专知会员服务

38+阅读 · 2020年3月14日

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

【WWW2020】学习上下文化文档表示用于医疗答案检索，Learning Contextualized Document Representations for Healthcare Answer Retrieval

专知会员服务

26+阅读 · 2020年2月10日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

【UIUC】基于知识图谱和语料库的协同推理:一个多智能体强化学习方法（Cooperative Reasoning on Knowledge Graph and Corpus: A Multi-agentReinforcement Learning Approach）

专知会员服务

26+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

学界 | CVPR 最新医学影像 AI 论文：利用学习图像变换进行数据增强

AI科技评论

10+阅读 · 2019年3月23日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

基于神经网络的实体识别和关系抽取联合学习 | PaperWeekly #54

黑龙江大学自然语言处理实验室

19+阅读 · 2017年12月14日

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

【干货】强化学习在生成对抗网络文本生成中扮演的角色（下）

GAN生成式对抗网络

11+阅读 · 2017年11月2日

相关论文

CONCORD: Asynchronous Sparse Aggregation for Device-Cloud RAG under Document Isolation

Arxiv

0+阅读 · 6月13日

InterleaveThinker: Reinforcing Agentic Interleaved Generation

Arxiv

0+阅读 · 6月11日

SynthICL: Scalable In-context Imitation Learning with Synthetic Data

Arxiv

0+阅读 · 6月6日

LinkNav: Surfacing Interconnected Information in Scientific Articles

Arxiv

0+阅读 · 6月4日

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm

Arxiv

0+阅读 · 5月28日

ICICLE: Expanding Retrieval with In-Context Documents

Arxiv

0+阅读 · 5月27日

Enhancing Clinical Trial Patient Matching through Knowledge Augmentation and Reasoning with Multi-Agent

Arxiv

0+阅读 · 5月15日

SynCABEL: Synthetic Contextualized Augmentation for Biomedical Entity Linking

Arxiv

0+阅读 · 5月13日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 5月13日

Reconnecting Fragmented Citation Networks with Semantic Augmentation

Arxiv

0+阅读 · 5月12日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

体内翻译过程中G四链体的形成机制及功能探讨

国家自然科学基金

0+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于弱监督学习的细粒度中医临床医学实体识别方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于EHR结构模型和DCM的医学术语协同化方法研究

国家自然科学基金

4+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员