Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA - 专知论文

会员服务 ·

0

问答 · 系统 · 数据集 · 检索增强 · 生成方法 ·

Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

翻译：跨领域对话式问答中检索增强生成方法的全面比较

Klejda Alushi,Jan Strich,Chris Biemann,Martin Semmann

from arxiv, Accepted to EACL SRW 26

Conversational question answering increasingly relies on retrieval-augmented generation (RAG) to ground large language models (LLMs) in external knowledge. Yet, most existing studies evaluate RAG methods in isolation and primarily focus on single-turn settings. This paper addresses the lack of a systematic comparison of RAG methods for multi-turn conversational QA, where dialogue history, coreference, and shifting user intent substantially complicate retrieval. We present a comprehensive empirical study of vanilla and advanced RAG methods across eight diverse conversational QA datasets spanning multiple domains. Using a unified experimental setup, we evaluate retrieval quality and answer generation using generator and retrieval metrics, and analyze how performance evolves across conversation turns. Our results show that robust yet straightforward methods, such as reranking, hybrid BM25, and HyDE, consistently outperform vanilla RAG. In contrast, several advanced techniques fail to yield gains and can even degrade performance below the No-RAG baseline. We further demonstrate that dataset characteristics and dialogue length strongly influence retrieval effectiveness, explaining why no single RAG strategy dominates across settings. Overall, our findings indicate that effective conversational RAG depends less on method complexity than on alignment between the retrieval strategy and the dataset structure. We publish the code used.\footnote{\href{https://github.com/Klejda-A/exp-rag.git}{GitHub Repository}}

翻译：对话式问答系统日益依赖检索增强生成技术，将大语言模型与外部知识进行关联。然而，现有研究大多孤立地评估RAG方法，且主要关注单轮问答场景。本文针对多轮对话式问答中缺乏系统性RAG方法比较的问题展开研究——在该场景下，对话历史、指代消解及动态变化的用户意图会显著增加检索复杂度。我们通过对八个跨领域对话式问答数据集的实证研究，系统比较了基础版与进阶版RAG方法。采用统一实验设置，通过生成器指标和检索指标评估检索质量与答案生成效果，并分析模型性能随对话轮次的变化规律。实验结果表明，重排序、混合BM25和HyDE等鲁棒性强的简洁方法持续优于基础版RAG；而部分进阶技术不仅未能带来增益，甚至可能使性能低于无RAG基线。研究进一步揭示数据集特性与对话长度会显著影响检索效能，这解释了为何不存在适用于所有场景的通用RAG策略。总体而言，本研究表明对话式RAG系统的有效性更取决于检索策略与数据集结构的适配度，而非方法复杂度。相关代码已开源发布。\footnote{\href{https://github.com/Klejda-A/exp-rag.git}{GitHub代码仓库}}

0

相关内容

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Arxiv

0+阅读 · 3月10日

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Arxiv

0+阅读 · 3月7日

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Arxiv

0+阅读 · 3月4日

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

Arxiv

0+阅读 · 2月25日

HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation

Arxiv

0+阅读 · 2月16日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach

Arxiv

0+阅读 · 2月14日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Arxiv

0+阅读 · 2月3日

Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

基于 rasa 搭建中文对话系统 | 公开课

基于 rasa 搭建中文对话系统 | 公开课

AI研习社

16+阅读 · 2018年1月12日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Arxiv

0+阅读 · 3月10日

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Arxiv

0+阅读 · 3月7日

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Arxiv

0+阅读 · 3月4日

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

Arxiv

0+阅读 · 2月25日

HyperRAG: Reasoning N-ary Facts over Hypergraphs for Retrieval Augmented Generation

Arxiv

0+阅读 · 2月16日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

Evaluating Prompt Engineering Techniques for RAG in Small Language Models: A Multi-Hop QA Approach

Arxiv

0+阅读 · 2月14日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Arxiv

0+阅读 · 2月3日

Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain

Arxiv

0+阅读 · 2月3日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

多源基因表达数据横向整合的统计方法比较

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员