UniversalRAG：面向多模态与多粒度语料库的检索增强生成 (UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities) - 专知论文

会员服务 ·

0

模态 · 语料 · 语料库 · 知识 · 粒度 ·

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities

翻译：UniversalRAG：面向多模态与多粒度语料库的检索增强生成

Woongyeong Yeo,Kangsan Kim,Soyeong Jeong,Jinheon Baek,Sung Ju Hwang

from arxiv, Project page : https://universalrag.github.io

Retrieval-Augmented Generation (RAG) has shown substantial promise in improving factual accuracy by grounding model responses with external knowledge relevant to queries. However, most existing approaches are limited to a text-only corpus, and while recent efforts have extended RAG to other modalities such as images and videos, they typically operate over a single modality-specific corpus. In contrast, real-world queries vary widely in the type of knowledge they require, which a single type of knowledge source cannot address. To address this, we introduce UniversalRAG, designed to retrieve and integrate knowledge from heterogeneous sources with diverse modalities and granularities. Specifically, motivated by the observation that forcing all modalities into a unified representation space derived from a single aggregated corpus causes a modality gap, where the retrieval tends to favor items from the same modality as the query, we propose modality-aware routing, which dynamically identifies the most appropriate modality-specific corpus and performs targeted retrieval within it, and further justify its effectiveness with a theoretical analysis. Moreover, beyond modality, we organize each modality into multiple granularity levels, enabling fine-tuned retrieval tailored to the complexity and scope of the query. We validate UniversalRAG on 10 benchmarks of multiple modalities, showing its superiority over various modality-specific and unified baselines.

翻译：检索增强生成（RAG）通过将模型响应与查询相关的外部知识相结合，在提升事实准确性方面展现出巨大潜力。然而，现有方法大多局限于纯文本语料库；尽管近期研究已将RAG扩展至图像、视频等其他模态，但这些方法通常仅针对单一模态的专用语料库进行操作。相比之下，现实世界中的查询所需的知识类型差异巨大，单一类型的知识源无法满足需求。为此，我们提出了UniversalRAG，旨在从具有多样化模态和粒度的异构知识源中检索并整合知识。具体而言，我们观察到将所有模态强制映射到源自单一聚合语料库的统一表示空间会导致模态鸿沟——检索过程倾向于偏好与查询相同模态的内容。基于此，我们提出模态感知路由机制，该机制能动态识别最合适的模态专用语料库并在其中执行定向检索，并通过理论分析进一步论证其有效性。此外，除模态维度外，我们将每种模态组织为多个粒度层级，从而能够根据查询的复杂度和范围进行精细化检索。我们在涵盖多模态的10个基准测试上验证了UniversalRAG，结果表明其性能优于多种模态专用基线及统一基线方法。

0

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

43+阅读 · 2025年2月17日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

29+阅读 · 2025年2月12日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

37+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

100+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

59+阅读 · 2024年4月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Arxiv

0+阅读 · 2月3日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

RAGRouter-Bench: A Dataset and Benchmark for Adaptive RAG Routing

Arxiv

0+阅读 · 1月30日

MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation

Arxiv

0+阅读 · 1月21日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

TagRAG: Tag-guided Hierarchical Knowledge Graph Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月12日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月10日

After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月7日

Bridging OLAP and RAG: A Multidimensional Approach to the Design of Corpus Partitioning

Arxiv

0+阅读 · 1月7日

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

相关VIP内容

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

32+阅读 · 2025年7月17日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

43+阅读 · 2025年2月17日

迈向可信的检索增强生成：大语言模型综述

迈向可信的检索增强生成：大语言模型综述

专知会员服务

29+阅读 · 2025年2月12日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

37+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

34+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

48+阅读 · 2024年12月17日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

54+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

100+阅读 · 2024年5月13日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

59+阅读 · 2024年4月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

12+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Arxiv

0+阅读 · 2月3日

A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

Arxiv

0+阅读 · 2月3日

RAGRouter-Bench: A Dataset and Benchmark for Adaptive RAG Routing

Arxiv

0+阅读 · 1月30日

MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation

Arxiv

0+阅读 · 1月21日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

TagRAG: Tag-guided Hierarchical Knowledge Graph Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月12日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月10日

After Retrieval, Before Generation: Enhancing the Trustworthiness of Large Language Models in Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月7日

Bridging OLAP and RAG: A Multidimensional Approach to the Design of Corpus Partitioning

Arxiv

0+阅读 · 1月7日

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

Arxiv

0+阅读 · 1月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员