Retrieval-Augmented Generation (RAG) effectively grounds Large Language Models (LLMs) with external knowledge and is widely applied to Web-related tasks. However, its scalability is hindered by excessive context length and redundant retrievals. Recent research on soft context compression aims to address this by encoding long documents into compact embeddings, yet they often underperform non-compressed RAG due to their reliance on auto-encoder-like full-compression that forces the encoder to compress all document information regardless of relevance to the input query. In this work, we conduct an analysis on this paradigm and reveal two fundamental limitations: (I) Infeasibility, full-compression conflicts with the LLM's downstream generation behavior; and (II) Non-necessity: full-compression is unnecessary and dilutes task-relevant information density. Motivated by these insights, we introduce SeleCom, a selector-based soft compression framework for RAG that redefines the encoder's role as query-conditioned information selector. The selector is decoder-only and is trained with a massive, diverse and difficulty-graded synthetic QA dataset with curriculum learning. Extensive experiments show that SeleCom significantly outperforms existing soft compression approaches and achieves competitive or superior performance to non-compression baselines, while reducing computation and latency by 33.8%~84.6%.


翻译:检索增强生成(RAG)通过外部知识有效支撑大型语言模型(LLM),并广泛应用于Web相关任务。然而,过长的上下文长度和冗余检索会制约其可扩展性。近期关于软上下文压缩的研究试图通过将长文档编码为紧凑嵌入来解决该问题,但由于其依赖类自编码器的全压缩模式——强制编码器压缩所有文档信息(无论是否与输入查询相关),导致性能常不及非压缩RAG。本文对该范式进行分析,揭示其两大根本性局限:(Ⅰ)不可行性:全压缩与LLM的下游生成行为相冲突;(Ⅱ)非必要性:全压缩不必要且会稀释任务相关信息密度。受此启发,我们提出SeleCom——一种基于选择器的RAG软压缩框架,将编码器角色重新定义为查询条件信息选择器。该选择器采用解码器架构,通过包含海量、多样且难度分级的合成问答数据集,结合课程学习进行训练。大量实验表明,SeleCom显著优于现有软压缩方法,在计算量和延迟降低33.8%~84.6%的同时,达到甚至超越非压缩基线的性能。

0
下载
关闭预览

相关内容

【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
38+阅读 · 2024年11月5日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
60+阅读 · 2024年4月18日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员