Retrieval-Augmented Generation systems depend on retrieving semantically relevant document chunks to support accurate, grounded outputs from large language models. In structured and repetitive corpora such as regulatory filings, chunk similarity alone often fails to distinguish between documents with overlapping language. Practitioners often flatten metadata into input text as a heuristic, but the impact and trade-offs of this practice remain poorly understood. We present a systematic study of metadata-aware retrieval strategies, comparing plain-text baselines with approaches that embed metadata directly. Our evaluation spans metadata-as-text (prefix and suffix), a dual-encoder unified embedding that fuses metadata and content in a single index, dual-encoder late-fusion retrieval, and metadata-aware query reformulation. Across multiple retrieval metrics and question types, we find that prefixing and unified embeddings consistently outperform plain-text baselines, with the unified at times exceeding prefixing while being easier to maintain. Beyond empirical comparisons, we analyze embedding space, showing that metadata integration improves effectiveness by increasing intra-document cohesion, reducing inter-document confusion, and widening the separation between relevant and irrelevant chunks. Field-level ablations show that structural cues provide strong disambiguating signals. Our code, evaluation framework, and the RAGMATE-10K dataset are publicly hosted.


翻译:检索增强生成系统依赖于检索语义相关的文档片段,以支持大型语言模型生成准确且有依据的输出。在监管文件等结构化和重复性语料库中,仅依靠片段相似性往往难以区分语言重叠的文档。实践者通常将元数据作为启发式方法平铺到输入文本中,但这一做法的影响与权衡仍鲜为人知。我们对元数据感知的检索策略进行了系统性研究,比较了纯文本基线方法与直接嵌入元数据的方法。我们的评估涵盖了元数据作为文本(前缀和后缀)、将元数据与内容融合在单一索引中的双编码器统一嵌入、双编码器后融合检索,以及元数据感知的查询重构。在多种检索指标和问题类型中,我们发现前缀法和统一嵌入法始终优于纯文本基线,其中统一嵌入法有时甚至超越前缀法,且更易于维护。除实证比较外,我们还分析了嵌入空间,表明元数据集成通过增强文档内聚性、减少文档间混淆以及扩大相关与无关片段之间的分离度,从而提升了检索效果。字段级消融实验显示,结构线索提供了强大的消歧信号。我们的代码、评估框架以及RAGMATE-10K数据集均已公开托管。

0
下载
关闭预览

相关内容

元数据(Metadata),又称元数据、中介数据、中继数据[来源请求],为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
16+阅读 · 2025年7月14日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
16+阅读 · 2025年7月14日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员