Tabular documents such as CSV and Excel files are widely used in enterprise data pipelines, yet existing chunking strategies for retrieval-augmented generation (RAG) are primarily designed for unstructured text and do not account for tabular structure. We propose a structure-aware tabular chunking (STC) framework that operates on row-level units by constructing a hierarchical Row Tree representation, where each row is encoded as a key-value block. STC performs token-constrained splitting aligned with structural boundaries and applies overlap-free greedy merging to produce dense, non-overlapping chunks. This design preserves semantic relationships between fields within a row while improving token utilization and reducing fragmentation. Across evaluations on the MAUD dataset, STC reduces chunk count by up to 40% and 56% compared to standard recursive and key-value based baselines, respectively, while improving token utilization and processing efficiency. In retrieval benchmarks, STC improves MRR from 0.3576 to 0.5945 in a hybrid setting and increases Recall@1 from 0.366 to 0.754 in BM25-only retrieval. These results demonstrate that preserving structure during chunking improves retrieval performance, highlighting the importance of structure-aware chunking for RAG over tabular data.


翻译:诸如CSV和Excel文件等表格文档广泛用于企业数据管道,然而现有面向检索增强生成的分块策略主要针对非结构化文本设计,未考虑表格结构。我们提出了一种结构感知的表格分块框架,该框架通过构建分层行树表示,在行级单元上运作——其中每一行被编码为键值块。STC基于结构边界执行令牌约束的分裂,并应用无重叠的贪婪合并以生成稠密且无重叠的分块。该设计在保留行内字段间语义关系的同时,提升了令牌利用率并减少了碎片化。在MAUD数据集上的评估中,与标准递归分块和基于键值分块的基线相比,STC分别减少了高达40%和56%的分块数量,同时提升了令牌利用率和处理效率。在检索基准测试中,STC在混合模式下将MRR从0.3576提升至0.5945,且在仅使用BM25检索时,Recall@1从0.366提升至0.754。这些结果表明,在分块过程中保留结构可提升检索性能,突显了针对表格数据的RAG中结构感知分块的重要性。

0
下载
关闭预览

相关内容

《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
专知会员服务
17+阅读 · 2021年2月17日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
专知会员服务
17+阅读 · 2021年2月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员