Biomedical question-answering (QA) systems require effective retrieval and generation components to ensure accuracy, efficiency, and scalability. This study systematically examines a Retrieval-Augmented Generation (RAG) system for biomedical QA, evaluating retrieval strategies and response time trade-offs. We first assess state-of-the-art retrieval methods, including BM25, BioBERT, MedCPT, and a hybrid approach, alongside common data stores such as Elasticsearch, MongoDB, and FAISS, on a ~10% subset of PubMed (2.4M documents) to measure indexing efficiency, retrieval latency, and retriever performance in the end-to-end RAG system. Based on these insights, we deploy the final RAG system on the full 24M PubMed corpus, comparing different retrievers' impact on overall performance. Evaluations of the retrieval depth show that retrieving 50 documents with BM25 before reranking with MedCPT optimally balances accuracy (0.90), recall (0.90), and response time (1.91s). BM25 retrieval time remains stable (82ms), while MedCPT incurs the main computational cost. These results highlight previously not well-known trade-offs in retrieval depth, efficiency, and scalability for biomedical QA. With open-source code, the system is fully reproducible and extensible.


翻译:生物医学问答系统需要高效的检索与生成组件以确保准确性、效率与可扩展性。本研究系统性地考察了一种用于生物医学问答的检索增强生成系统,评估了检索策略与响应时间的权衡关系。我们首先在PubMed约10%的子集(240万篇文献)上,评估了包括BM25、BioBERT、MedCPT及混合方法在内的前沿检索方法,以及Elasticsearch、MongoDB和FAISS等常用数据存储方案,以衡量端到端RAG系统中的索引效率、检索延迟与检索器性能。基于这些发现,我们在完整的2400万篇PubMed文献库上部署了最终RAG系统,比较了不同检索器对整体性能的影响。对检索深度的评估表明,在使用MedCPT进行重排序前,先用BM25检索50篇文献能在准确率(0.90)、召回率(0.90)和响应时间(1.91秒)之间达到最优平衡。BM25检索时间保持稳定(82毫秒),而MedCPT构成了主要计算成本。这些结果揭示了生物医学问答中检索深度、效率与可扩展性之间尚未被充分认识的权衡关系。通过开源代码,本系统具备完全的可复现性与可扩展性。

0
下载
关闭预览

相关内容

检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
【AAAI2022】利用神经检索器改进生物医学信息检索
专知会员服务
17+阅读 · 2022年1月21日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
【AAAI2022】利用神经检索器改进生物医学信息检索
专知会员服务
17+阅读 · 2022年1月21日
相关资讯
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员