We present the design and implementation of a RAG-based AI system benchmarking (RAGPerf) framework for characterizing the system behaviors of RAG pipelines. To facilitate detailed profiling and fine-grained performance analysis, RAGPerf decouples the RAG workflow into several modular components - embedding, indexing, retrieval, reranking, and generation. RAGPerf offers the flexibility for users to configure the core parameters of each component and examine their impact on the end-to-end query performance and quality. RAGPerf has a workload generator to model real-world scenarios by supporting diverse datasets (e.g., text, pdf, code, and audio), different retrieval and update ratios, and query distributions. RAGPerf also supports different embedding models, major vector databases such as LanceDB, Milvus, Qdrant, Chroma, and Elasticsearch, as well as different LLMs for content generation. It automates the collection of performance metrics (i.e., end-to-end query throughput, host/GPU memory footprint, and CPU/GPU utilization) and accuracy metrics (i.e., context recall, query accuracy, and factual consistency). We demonstrate the capabilities of RAGPerf through a comprehensive set of experiments and open source its codebase at GitHub. Our evaluation shows that RAGPerf incurs negligible performance overhead.


翻译:本文提出了一种基于RAG的人工智能系统基准测试(RAGPerf)框架的设计与实现,用于表征RAG流水线的系统行为。为支持细粒度性能剖析与分析,RAGPerf将RAG工作流解耦为若干模块化组件——嵌入、索引、检索、重排序与生成。该框架允许用户灵活配置各核心组件的参数,并考察其对端到端查询性能与质量的影响。RAGPerf内置工作负载生成器,通过支持多样化数据集(如文本、PDF、代码及音频)、不同检索与更新比例以及查询分布来模拟真实场景。同时支持多种嵌入模型、主流向量数据库(包括LanceDB、Milvus、Qdrant、Chroma及Elasticsearch)以及用于内容生成的不同大语言模型。系统可自动化采集性能指标(包括端到端查询吞吐量、主机/GPU内存占用及CPU/GPU利用率)与精度指标(包括上下文召回率、查询准确率及事实一致性)。我们通过一系列综合实验展示了RAGPerf的功能特性,并在GitHub开源其代码库。评估结果表明,RAGPerf引入的性能开销可忽略不计。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】检索增强生成(RAG)入门指南
专知会员服务
30+阅读 · 2025年6月25日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
7+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
17+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员