The rapidly growth of biomedical literature creates challenges acquiring specific medical information. Current biomedical question-answering systems primarily focus on short-form answers, failing to provide comprehensive explanations necessary for clinical decision-making. We present RAG-BioQA, a retrieval-augmented generation framework for long-form biomedical question answering. Our system integrates BioBERT embeddings with FAISS indexing for retrieval and a LoRA fine-tuned FLAN-T5 model for answer generation. We train on 181k QA pairs from PubMedQA, MedDialog, and MedQuAD, and evaluate on a held-out PubMedQA test set. We compare four retrieval strategies: dense retrieval (FAISS), BM25, ColBERT, and MonoT5. Our results show that domain-adapted dense retrieval outperforms zero-shot neural re-rankers, with the best configuration achieving 0.24 BLEU-1 and 0.29 ROUGE-1. Fine-tuning improves BERTScore by 81\% over the base model. We release our framework to support reproducible biomedical QA research.


翻译:生物医学文献的快速增长给获取特定医学信息带来了挑战。当前的生物医学问答系统主要侧重于简短答案,无法提供临床决策所需的全面解释。我们提出了RAG-BioQA,一种用于长篇幅生物医学问答的检索增强生成框架。我们的系统将BioBERT嵌入与FAISS索引检索相结合,并采用LoRA微调的FLAN-T5模型进行答案生成。我们使用来自PubMedQA、MedDialog和MedQuAD的181k个问答对进行训练,并在预留的PubMedQA测试集上进行评估。我们比较了四种检索策略:稠密检索(FAISS)、BM25、ColBERT和MonoT5。结果表明,领域自适应的稠密检索优于零样本神经重排序器,最佳配置取得了0.24的BLEU-1和0.29的ROUGE-1分数。微调使BERTScore相比基础模型提升了81%。我们开源了该框架以支持可复现的生物医学问答研究。

0
下载
关闭预览

相关内容

具有动能的生命体。
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员