We study how document chunking choices impact the reliability of Retrieval-Augmented Generation (RAG) systems in industry. While practice often relies on heuristics, our end-to-end evaluation on Natural Questions systematically varies chunking method (token, sentence, semantic, code), chunk size, overlap, and context length. We use a standard industrial setup: SPLADE retrieval and a Mistral-8B generator. We derive actionable lessons for cost-efficient deployment: (i) overlap provides no measurable benefit and increases indexing cost; (ii) sentence chunking is the most cost-effective method, matching semantic chunking up to ~5k tokens; (iii) a "context cliff" reduces quality beyond ~2.5k tokens; and (iv) optimal context depends on the goal (semantic quality peaks at small contexts; exact match at larger ones).


翻译:本研究探讨了文档分块选择如何影响工业界检索增强生成(RAG)系统的可靠性。尽管实践中通常依赖启发式方法,但我们在Natural Questions数据集上进行了端到端评估,系统性地改变了分块方法(基于词元、句子、语义、代码)、分块大小、重叠度以及上下文长度。我们采用标准的工业设置:SPLADE检索器和Mistral-8B生成器。我们得出了具有成本效益部署的可操作经验:(i)重叠未带来可测量的益处,反而增加了索引成本;(ii)句子分块是最具成本效益的方法,在约5k词元内其效果与语义分块相当;(iii)超过约2.5k词元会出现“上下文悬崖”,导致质量下降;以及(iv)最优上下文取决于具体目标(语义质量在小上下文中达到峰值,而精确匹配则需要更大的上下文)。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
一文了解成分句法分析
人工智能头条
15+阅读 · 2019年4月24日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
相关VIP内容
Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员