RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems - 专知论文

会员服务 ·

0

系统 · 端到端 · 基准 · 基准测试 · 嵌入 ·

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

翻译：RAGPerf：面向检索增强生成系统的端到端基准测试框架

Shaobo Li,Yirui Zhou,Yuan Xu,Kevin Chen,Daniel Waddington,Swaminathan Sundararaman,Hubertus Franke,Jian Huang

from arxiv, The codebase of RAGPerf is available at https://github.com/platformxlab/RAGPerf

We present the design and implementation of a RAG-based AI system benchmarking (RAGPerf) framework for characterizing the system behaviors of RAG pipelines. To facilitate detailed profiling and fine-grained performance analysis, RAGPerf decouples the RAG workflow into several modular components - embedding, indexing, retrieval, reranking, and generation. RAGPerf offers the flexibility for users to configure the core parameters of each component and examine their impact on the end-to-end query performance and quality. RAGPerf has a workload generator to model real-world scenarios by supporting diverse datasets (e.g., text, pdf, code, and audio), different retrieval and update ratios, and query distributions. RAGPerf also supports different embedding models, major vector databases such as LanceDB, Milvus, Qdrant, Chroma, and Elasticsearch, as well as different LLMs for content generation. It automates the collection of performance metrics (i.e., end-to-end query throughput, host/GPU memory footprint, and CPU/GPU utilization) and accuracy metrics (i.e., context recall, query accuracy, and factual consistency). We demonstrate the capabilities of RAGPerf through a comprehensive set of experiments and open source its codebase at GitHub. Our evaluation shows that RAGPerf incurs negligible performance overhead.

翻译：本文提出了一种基于RAG的人工智能系统基准测试（RAGPerf）框架的设计与实现，用于表征RAG流水线的系统行为。为支持细粒度性能剖析与分析，RAGPerf将RAG工作流解耦为若干模块化组件——嵌入、索引、检索、重排序与生成。该框架允许用户灵活配置各核心组件的参数，并考察其对端到端查询性能与质量的影响。RAGPerf内置工作负载生成器，通过支持多样化数据集（如文本、PDF、代码及音频）、不同检索与更新比例以及查询分布来模拟真实场景。同时支持多种嵌入模型、主流向量数据库（包括LanceDB、Milvus、Qdrant、Chroma及Elasticsearch）以及用于内容生成的不同大语言模型。系统可自动化采集性能指标（包括端到端查询吞吐量、主机/GPU内存占用及CPU/GPU利用率）与精度指标（包括上下文召回率、查询准确率及事实一致性）。我们通过一系列综合实验展示了RAGPerf的功能特性，并在GitHub开源其代码库。评估结果表明，RAGPerf引入的性能开销可忽略不计。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

基于RASA的task-orient对话系统解析（三）——基于rasa的会议室预定对话系统实例

基于RASA的task-orient对话系统解析（三）——基于rasa的会议室预定对话系统实例

AINLP

23+阅读 · 2019年9月11日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

一文概览用于数据集增强的对抗生成网络架构

一文概览用于数据集增强的对抗生成网络架构

论智

357+阅读 · 2018年3月16日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于光波导的便携式生物芯片检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Arxiv

0+阅读 · 3月16日

NetArena: Dynamic Benchmarks for AI Agents in Network Automation

Arxiv

0+阅读 · 3月13日

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Arxiv

0+阅读 · 3月7日

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Arxiv

0+阅读 · 3月3日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 2月15日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

IRB: Automated Generation of Robust Factuality Benchmarks

Arxiv

0+阅读 · 2月8日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

最新内容

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

2+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

3+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

7+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

11+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

17+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

基于RASA的task-orient对话系统解析（三）——基于rasa的会议室预定对话系统实例

基于RASA的task-orient对话系统解析（三）——基于rasa的会议室预定对话系统实例

AINLP

23+阅读 · 2019年9月11日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

一文概览用于数据集增强的对抗生成网络架构

一文概览用于数据集增强的对抗生成网络架构

论智

357+阅读 · 2018年3月16日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

基于机器学习的KPI自动化异常检测系统

基于机器学习的KPI自动化异常检测系统

运维帮

13+阅读 · 2017年8月16日

GAFT：一个使用 Python 实现的遗传算法框架

GAFT：一个使用 Python 实现的遗传算法框架

Python开发者

10+阅读 · 2017年8月1日

相关论文

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Arxiv

0+阅读 · 3月16日

NetArena: Dynamic Benchmarks for AI Agents in Network Automation

Arxiv

0+阅读 · 3月13日

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Arxiv

0+阅读 · 3月7日

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Arxiv

0+阅读 · 3月3日

Benchmarking Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 2月16日

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems

Arxiv

0+阅读 · 2月15日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse

Arxiv

0+阅读 · 2月10日

IRB: Automated Generation of Robust Factuality Benchmarks

Arxiv

0+阅读 · 2月8日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

相关基金

Rabif基因在肥胖发生中的作用及其机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

基于光波导的便携式生物芯片检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

集核酸纯化、多病原体LAMP反应及在线检测为一体的床旁检测芯片研制

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员