Retrieval-Augmented Generation for Natural Language Processing: A Survey - 专知论文

会员服务 ·

0

知识 (knowledge) · Processing（编程语言） · Nature · 基 · NLP ·

Retrieval-Augmented Generation for Natural Language Processing: A Survey

翻译：面向自然语言处理的检索增强生成技术综述

Shangyu Wu,Ying Xiong,Yufei Cui,Haolun Wu,Can Chen,Ye Yuan,Lianming Huang,Xue Liu,Tei-Wei Kuo,Nan Guan,Chun Jason Xue

from arxiv, Accepted by Artificial Intelligence Review

Large language models (LLMs) have achieved strong empirical performance in various fields, benefiting from their huge amount of parameters that store knowledge. However, LLMs still suffer from several key issues, such as hallucination problems, knowledge update issues, and lacking domain-specific expertise. The appearance of retrieval-augmented generation (RAG), which leverages an external knowledge base to augment LLMs, mitigates these limitations. This paper presents a systematic review of RAG techniques for natural language processing (NLP), with a focus on retrievers and retrieval fusions. We introduce a novel taxonomy of retrieval fusions, such as query-based, logits-based, latent, and parametric fusion, and provide structured comparisons across accessibility, efficiency, and use cases. The paper further examines RAG applications across diverse NLP tasks, discusses evaluation methodologies and benchmark limitations, and analyzes training paradigms with and without knowledge base updates. Finally, we explore industrial deployment considerations and identify emerging challenges and future directions, including security, efficiency, and graph-based retrieval.

翻译：大语言模型凭借其海量参数存储的知识，在各领域取得了强劲的实证表现。然而，大语言模型仍面临若干关键问题，包括幻觉问题、知识更新问题以及缺乏领域专业知识。检索增强生成技术通过利用外部知识库增强大语言模型，有效缓解了这些局限。本文系统综述了面向自然语言处理的检索增强生成技术，重点聚焦检索器与检索融合方法。我们提出了一种新的检索融合分类体系，涵盖基于查询、基于对数几率、基于隐式与基于参数的融合方法，并从可访问性、效率及使用场景层面进行了结构化对比。文章进一步考察了检索增强生成在多种自然语言处理任务中的应用，探讨了评估方法与基准局限性，分析了含知识库更新与不含知识库更新的训练范式。最后，我们探索了工业部署的考量因素，并指出了安全、效率及基于图的检索等新兴挑战与未来方向。

0

相关内容

知识 (knowledge)

知识 (knowledge)

通过学习、实践或探索所获得的认识、判断或技能。

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

多模态检索增强生成综述

多模态检索增强生成综述

专知会员服务

40+阅读 · 2025年4月15日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

89+阅读 · 2024年5月3日

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附Slides

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附Slides

专知会员服务

41+阅读 · 2022年5月24日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

38+阅读 · 2020年3月10日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【自然语言处理】清华刘知远55页自然语言处理PPT

【自然语言处理】清华刘知远55页自然语言处理PPT

产业智能官

19+阅读 · 2019年8月23日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

专知

88+阅读 · 2018年8月1日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking

Arxiv

0+阅读 · 6月15日

SAG: SQL-Retrieval Augmented Generation with Query-Time Dynamic Hyperedges

Arxiv

0+阅读 · 6月14日

Combining Retrieval-Augmented Text Generation with LLMs for Reading Content Recommendations

Arxiv

0+阅读 · 6月12日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

Understanding the Fundamental Design Decisions of Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 5月29日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

Meta Learning for Natural Language Processing: A Survey

Meta Learning for Natural Language Processing: A Survey

Arxiv

15+阅读 · 2022年5月3日

VIP会员

文章信息

相关主题

知识 (knowledge)

Processing（编程语言）

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

12+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

8+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

多模态检索增强生成综述

多模态检索增强生成综述

专知会员服务

40+阅读 · 2025年4月15日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

89+阅读 · 2024年5月3日

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附Slides

微软等ACL2022《知识增强自然语言处理》教程，阐述最新前沿技术，附Slides

专知会员服务

41+阅读 · 2022年5月24日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

38+阅读 · 2020年3月10日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

【自然语言处理】清华刘知远55页自然语言处理PPT

【自然语言处理】清华刘知远55页自然语言处理PPT

产业智能官

19+阅读 · 2019年8月23日

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

清华大学刘知远《知识指导的自然语言处理》，附55页PPT下载

专知

36+阅读 · 2019年7月7日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

专知

88+阅读 · 2018年8月1日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

相关论文

Beyond Chunks and Graphs: Retrieval-Augmented Generation through Triplet-Driven Thinking

Arxiv

0+阅读 · 6月15日

SAG: SQL-Retrieval Augmented Generation with Query-Time Dynamic Hyperedges

Arxiv

0+阅读 · 6月14日

Combining Retrieval-Augmented Text Generation with LLMs for Reading Content Recommendations

Arxiv

0+阅读 · 6月12日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

Understanding the Fundamental Design Decisions of Retrieval-Augmented Generation Systems

Arxiv

0+阅读 · 5月29日

Large Language Models Meet NLP: A Survey

Arxiv

14+阅读 · 2024年5月21日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications

Arxiv

19+阅读 · 2023年11月10日

Augmented Large Language Models with Parametric Knowledge Guiding

Arxiv

20+阅读 · 2023年5月8日

Meta Learning for Natural Language Processing: A Survey

Meta Learning for Natural Language Processing: A Survey

Arxiv

15+阅读 · 2022年5月3日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员