Better Generalizing to Unseen Concepts: An Evaluation Framework and An LLM-Based Auto-Labeled Pipeline for Biomedical Concept Recognition - 专知论文

会员服务 ·

0

标注 · 泛化 · 自动标注 · 识别 · 生物 ·

Better Generalizing to Unseen Concepts: An Evaluation Framework and An LLM-Based Auto-Labeled Pipeline for Biomedical Concept Recognition

翻译：面向未见概念的泛化提升：一种评估框架与基于大语言模型的自动标注流程在生物医学概念识别中的应用

Shanshan Liu,Noriki Nishida,Fei Cheng,Narumi Tokunaga,Rumana Ferdous Munne,Yuki Yamagata,Kouji Kozaki,Takehito Utsuro,Yuji Matsumoto

from arxiv, Accepted to EACL 2026 (Main)

Generalization to unseen concepts is a central challenge due to the scarcity of human annotations in Mention-agnostic Biomedical Concept Recognition (MA-BCR). This work makes two key contributions to systematically address this issue. First, we propose an evaluation framework built on hierarchical concept indices and novel metrics to measure generalization. Second, we explore LLM-based Auto-Labeled Data (ALD) as a scalable resource, creating a task-specific pipeline for its generation. Our research unequivocally shows that while LLM-generated ALD cannot fully substitute for manual annotations, it is a valuable resource for improving generalization, successfully providing models with the broader coverage and structural knowledge needed to approach recognizing unseen concepts. Code and datasets are available at https://github.com/bio-ie-tool/hi-ald.

翻译：在提及无关的生物医学概念识别（MA-BCR）任务中，由于人工标注数据的稀缺，模型对未见概念的泛化能力面临核心挑战。本研究针对该问题提出了两项关键贡献。首先，我们构建了一个基于层级概念索引及新型度量指标的评估框架，用以系统衡量模型的泛化性能。其次，我们探索了基于大语言模型的自动标注数据（ALD）作为一种可扩展资源，并设计了一个面向该任务的专用生成流程。研究明确表明，尽管大语言模型生成的自动标注数据无法完全替代人工标注，但其作为提升模型泛化能力的有效资源具有重要价值，能够为模型提供更广泛的覆盖范围和结构化知识，从而助力模型更好地识别未见概念。相关代码与数据集已在 https://github.com/bio-ie-tool/hi-ald 公开。

0

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

12+阅读 · 2025年6月3日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

预训练在自然语言处理的发展: 从Word Embedding到BERT模型

预训练在自然语言处理的发展: 从Word Embedding到BERT模型

AINLP

16+阅读 · 2018年11月9日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

公立医院知识共享评价与提升策略研究：基于内部知识市场理论

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

扩展工作条件下基于核免疫集成的SAR目标识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物操作与标识的微透镜阵列制造光诱导方法

国家自然科学基金

0+阅读 · 2014年12月31日

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Arxiv

0+阅读 · 2月19日

Harmonizing Generalization and Specialization: Uncertainty-Informed Collaborative Learning for Semi-supervised Medical Image Segmentation

Arxiv

0+阅读 · 2月12日

Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation

Arxiv

0+阅读 · 2月7日

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

Arxiv

0+阅读 · 1月29日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Domain Generalization with Quantum Enhancement for Medical Image Classification: A Lightweight Approach for Cross-Center Deployment

Arxiv

0+阅读 · 1月25日

A Lightweight Medical Image Classification Framework via Self-Supervised Contrastive Learning and Quantum-Enhanced Feature Modeling

Arxiv

0+阅读 · 1月23日

Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation

Arxiv

0+阅读 · 1月22日

Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

10+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

5+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

医学领域大型语言模型的新进展

医学领域大型语言模型的新进展

专知会员服务

25+阅读 · 2025年10月5日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【阿姆斯特丹博士论文】在测试时学习泛化

【阿姆斯特丹博士论文】在测试时学习泛化

专知会员服务

12+阅读 · 2025年6月3日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

大规模语言模型在生物信息学中的应用

大规模语言模型在生物信息学中的应用

专知会员服务

18+阅读 · 2025年1月16日

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

面向大语言模型（LLMs）时代的冷启动推荐：一项全面的综述与路线图

专知会员服务

33+阅读 · 2025年1月6日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

哈佛大学｜构建知识图谱PrimeKG以实现精准医疗--数据与代码全部公开，帮你从零开始复现知识图谱

GenomicAI

29+阅读 · 2022年5月4日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

预训练在自然语言处理的发展: 从Word Embedding到BERT模型

预训练在自然语言处理的发展: 从Word Embedding到BERT模型

AINLP

16+阅读 · 2018年11月9日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Arxiv

0+阅读 · 2月19日

Harmonizing Generalization and Specialization: Uncertainty-Informed Collaborative Learning for Semi-supervised Medical Image Segmentation

Arxiv

0+阅读 · 2月12日

Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation

Arxiv

0+阅读 · 2月7日

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Arxiv

0+阅读 · 2月4日

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine

Arxiv

0+阅读 · 1月29日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Domain Generalization with Quantum Enhancement for Medical Image Classification: A Lightweight Approach for Cross-Center Deployment

Arxiv

0+阅读 · 1月25日

A Lightweight Medical Image Classification Framework via Self-Supervised Contrastive Learning and Quantum-Enhanced Feature Modeling

Arxiv

0+阅读 · 1月23日

Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation

Arxiv

0+阅读 · 1月22日

Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection

Arxiv

0+阅读 · 1月15日

相关基金

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

公立医院知识共享评价与提升策略研究：基于内部知识市场理论

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

扩展工作条件下基于核免疫集成的SAR目标识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物操作与标识的微透镜阵列制造光诱导方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员