RAG-BioQA：一种用于长篇幅生物医学问答的检索增强生成框架 (RAG-BioQA: A Retrieval-Augmented Generation Framework for Long-Form Biomedical Question Answering) - 专知论文

会员服务 ·

0

生物 · 问答 · 检索增强 · 自动问答 · 系统 ·

RAG-BioQA: A Retrieval-Augmented Generation Framework for Long-Form Biomedical Question Answering

翻译：RAG-BioQA：一种用于长篇幅生物医学问答的检索增强生成框架

Lovely Yeswanth Panchumarthi,Sumalatha Saleti,Sai Prasad Gudari,Atharva Negi,Praveen Raj Budime,Harsit Upadhya

from arxiv, Submitted to ICAEI

The rapidly growth of biomedical literature creates challenges acquiring specific medical information. Current biomedical question-answering systems primarily focus on short-form answers, failing to provide comprehensive explanations necessary for clinical decision-making. We present RAG-BioQA, a retrieval-augmented generation framework for long-form biomedical question answering. Our system integrates BioBERT embeddings with FAISS indexing for retrieval and a LoRA fine-tuned FLAN-T5 model for answer generation. We train on 181k QA pairs from PubMedQA, MedDialog, and MedQuAD, and evaluate on a held-out PubMedQA test set. We compare four retrieval strategies: dense retrieval (FAISS), BM25, ColBERT, and MonoT5. Our results show that domain-adapted dense retrieval outperforms zero-shot neural re-rankers, with the best configuration achieving 0.24 BLEU-1 and 0.29 ROUGE-1. Fine-tuning improves BERTScore by 81\% over the base model. We release our framework to support reproducible biomedical QA research.

翻译：生物医学文献的快速增长给获取特定医学信息带来了挑战。当前的生物医学问答系统主要侧重于简短答案，无法提供临床决策所需的全面解释。我们提出了RAG-BioQA，一种用于长篇幅生物医学问答的检索增强生成框架。我们的系统将BioBERT嵌入与FAISS索引检索相结合，并采用LoRA微调的FLAN-T5模型进行答案生成。我们使用来自PubMedQA、MedDialog和MedQuAD的181k个问答对进行训练，并在预留的PubMedQA测试集上进行评估。我们比较了四种检索策略：稠密检索（FAISS）、BM25、ColBERT和MonoT5。结果表明，领域自适应的稠密检索优于零样本神经重排序器，最佳配置取得了0.24的BLEU-1和0.29的ROUGE-1分数。微调使BERTScore相比基础模型提升了81%。我们开源了该框架以支持可复现的生物医学问答研究。

0

相关内容

具有动能的生命体。

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

41+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

61+阅读 · 2024年12月15日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于直链的杂交链式反应在核酸与蛋白质检测中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

Arxiv

0+阅读 · 1月31日

ManuRAG: Multi-modal Retrieval Augmented Generation for Manufacturing Question Answering (Early Version)

Arxiv

0+阅读 · 1月26日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 1月23日

DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering

Arxiv

0+阅读 · 1月23日

MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation

Arxiv

0+阅读 · 1月21日

ManuRAG: Multi-modal Retrieval Augmented Generation for Manufacturing Question Answering

Arxiv

0+阅读 · 1月21日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

Efficient and Reproducible Biomedical Question Answering using Retrieval Augmented Generation

Arxiv

0+阅读 · 1月13日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月10日

Self-MedRAG: a Self-Reflective Hybrid Retrieval-Augmented Generation Framework for Reliable Medical Question Answering

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

相关VIP内容

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

41+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

29+阅读 · 2025年6月25日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

61+阅读 · 2024年12月15日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

70+阅读 · 2024年10月7日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

专知会员服务

28+阅读 · 2021年11月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

如何搭建一个基于知识图谱的问答系统（以医疗行业为例）

PaperWeekly

51+阅读 · 2019年11月17日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

读扩散？写扩散？推拉架构一文搞定！

读扩散？写扩散？推拉架构一文搞定！

架构师之路

17+阅读 · 2019年2月1日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

【论文推荐】最新六篇生成式对抗网络（GAN）相关论文—半监督学习、对偶、交互生成对抗网络、激活、纳什均衡、tempoGAN

专知

23+阅读 · 2018年2月23日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

Arxiv

0+阅读 · 1月31日

ManuRAG: Multi-modal Retrieval Augmented Generation for Manufacturing Question Answering (Early Version)

Arxiv

0+阅读 · 1月26日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 1月23日

DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering

Arxiv

0+阅读 · 1月23日

MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation

Arxiv

0+阅读 · 1月21日

ManuRAG: Multi-modal Retrieval Augmented Generation for Manufacturing Question Answering

Arxiv

0+阅读 · 1月21日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

Efficient and Reproducible Biomedical Question Answering using Retrieval Augmented Generation

Arxiv

0+阅读 · 1月13日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月10日

Self-MedRAG: a Self-Reflective Hybrid Retrieval-Augmented Generation Framework for Reliable Medical Question Answering

Arxiv

0+阅读 · 1月8日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于直链的杂交链式反应在核酸与蛋白质检测中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

广西民族药物资源数据库及检索平台的研究与设计

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员