Clinical named entity recognition in the Portuguese language: a benchmark of modern BERT models and LLMs

Vinicius Anjos de Almeida,Sandro Saorin da Silva,Josimar Chire,Leonardo Vicenzi,Nícolas Henrique Borges,Helena Kociolek,Sarah Miriã de Castro Rocha,Frederico Nassif Gomes,Júlia Cristina Ferreira,Oge Marques,Lucas Emanuel Silva e Oliveira

from arxiv, Under peer review. GitHub: https://github.com/GRUPOMED4U/clinical_ner_benchmark_paper

Clinical notes contain valuable unstructured information. Named entity recognition (NER) enables the automatic extraction of medical concepts; however, benchmarks for Portuguese remain scarce. In this study, we aimed to evaluate BERT-based models and large language models (LLMs) for clinical NER in Portuguese and to test strategies for addressing multilabel imbalance. We compared BioBERTpt, BERTimbau, ModernBERT, and mmBERT with LLMs such as GPT-5 and Gemini-2.5, using the public SemClinBr corpus and a private breast cancer dataset. Models were trained under identical conditions and evaluated using precision, recall, and F1-score. Iterative stratification, weighted loss, and oversampling were explored to mitigate class imbalance. The mmBERT-base model achieved the best performance (micro F1 = 0.76), outperforming all other models. Iterative stratification improved class balance and overall performance. Multilingual BERT models, particularly mmBERT, perform strongly for Portuguese clinical NER and can run locally with limited computational resources. Balanced data-splitting strategies further enhance performance.

翻译：临床笔记中包含大量非结构化信息。命名实体识别能够自动提取医学概念，然而针对葡萄牙语的基准测试仍然稀缺。本研究旨在评估基于BERT的模型和大型语言模型在葡萄牙语临床NER中的应用，并测试解决多标签不平衡的策略。我们利用公开的SemClinBr语料库和私有乳腺癌数据集，比较了BioBERTpt、BERTimbau、ModernBERT、mmBERT与GPT-5、Gemini-2.5等大型语言模型的性能。各模型在相同条件下进行训练，并采用精确率、召回率和F1分数进行评估。我们探索了用于缓解类别不平衡的迭代分层、加权损失和过采样方法。mmBERT-base模型取得了最佳性能（微平均F1=0.76），优于所有其他模型。迭代分层改善了类别平衡性和整体性能，多语言BERT模型（尤其是mmBERT）在葡萄牙语临床NER中表现强劲，且可在有限计算资源下本地运行。平衡的数据分割策略进一步提升了模型性能。

相关内容

MoDELS

关注 45

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

「中文电子病历命名实体识别」的研究与进展

专知会员服务

30+阅读 · 2022年11月5日

中文领域命名实体识别综述

专知会员服务

71+阅读 · 2021年8月20日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日