Retrieval-augmented generation (RAG) is highly sensitive to the quality of selected context, yet standard top-k retrieval often returns redundant or near-duplicate chunks that waste token budget and degrade downstream generation. We present AdaGReS, a redundancy-aware context selection framework for token-budgeted RAG that optimizes a set-level objective combining query-chunk relevance and intra-set redundancy penalties. AdaGReS performs greedy selection under a token-budget constraint using marginal gains derived from the objective, and introduces a closed-form, instance-adaptive calibration of the relevance-redundancy trade-off parameter to eliminate manual tuning and adapt to candidate-pool statistics and budget limits. We further provide a theoretical analysis showing that the proposed objective exhibits epsilon-approximate submodularity under practical embedding similarity conditions, yielding near-optimality guarantees for greedy selection. Experiments on open-domain question answering (Natural Questions) and a high-redundancy biomedical (drug) corpus demonstrate consistent improvements in redundancy control and context quality, translating to better end-to-end answer quality and robustness across settings.


翻译:检索增强生成(RAG)对所选上下文的质量高度敏感,然而标准的 top-k 检索通常会返回冗余或近似重复的文本块,这不仅浪费令牌预算,还会降低下游生成的质量。本文提出 AdaGReS,一个面向令牌预算 RAG 的冗余感知上下文选择框架,它优化了一个结合查询-块相关性与集合内冗余惩罚的集合级目标函数。AdaGGReS 在令牌预算约束下,利用从目标函数导出的边际增益执行贪婪选择,并引入一种闭式的、实例自适应的相关性与冗余权衡参数校准方法,以消除手动调参需求,并自适应候选池统计特征与预算限制。我们进一步提供了理论分析,表明在实用的嵌入相似性条件下,所提出的目标函数展现出 ε-近似次模性,从而为贪婪选择提供了近似最优性保证。在开放域问答(Natural Questions)和一个高冗余生物医学(药物)语料库上的实验表明,该方法在冗余控制和上下文质量方面均取得了一致的改进,并转化为更好的端到端答案质量及跨设置鲁棒性。

0
下载
关闭预览

相关内容

【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
32+阅读 · 2025年7月17日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
29+阅读 · 2025年2月12日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
100+阅读 · 2024年5月13日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
推荐|上交大推出Texygen:文本生成模型的基准测试平台
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员