Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation - 专知论文

会员服务 ·

0

令牌 · 表示 · 溢出 · 上下文 · 检索增强 ·

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

翻译：检测检索增强生成中压缩令牌表示的溢出问题

Julia Belikova,Danila Rozhevskii,Dennis Svirin,Konstantin Polev,Alexander Panchenko

from arxiv, Accepted to EACL 2026 Student Research Workshop. 14 pages, 6 tables, 1 figure

Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define \emph{token overflow} as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.

翻译：高效的长上下文处理仍然是当代大型语言模型（LLMs）面临的关键挑战，尤其在资源受限的环境中。软压缩架构通过用更小的学习压缩令牌集替换长令牌序列，有望扩展有效上下文长度。然而，可压缩性的极限——以及压缩何时开始擦除任务相关内容——仍未得到充分探索。在本文中，我们将\emph{令牌溢出}定义为压缩表示不再包含足够信息来回答给定查询的状态，并提出一种方法来表征和检测它。在xRAG软压缩设置中，我们发现与查询无关的饱和统计量能可靠地区分压缩与未压缩的令牌表示，为识别压缩令牌提供了实用工具，但在溢出检测能力上表现有限。基于查询和上下文xRAG表示的轻量级探测分类器在HotpotQA、SQuADv2和TriviaQA数据集上平均达到0.72的AUC-ROC，表明融入查询信息能提升检测性能。这些结果实现了从查询无关诊断到查询感知检测器的进步，使得低成本的LLM前门控成为可能，以减轻压缩引发的错误。

0

相关内容

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

33+阅读 · 2025年9月17日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

TensorFlow 2.0新特性之Ragged Tensor

TensorFlow 2.0新特性之Ragged Tensor

深度学习每日摘要

18+阅读 · 2019年4月5日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 3月1日

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 2月17日

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

Arxiv

0+阅读 · 2月15日

From Token to Line: Enhancing Code Generation with a Long-Term Perspective

Arxiv

0+阅读 · 2月9日

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

Arxiv

0+阅读 · 2月9日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment

Arxiv

0+阅读 · 2月7日

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Arxiv

0+阅读 · 2月4日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

5+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

5+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

11+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

33+阅读 · 2025年9月17日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

57+阅读 · 2024年9月24日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

68+阅读 · 2024年6月10日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

99+阅读 · 2023年8月31日

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

ChatGP能生成，但搜索行么? 山大百度最新《将大型语言模型作为重排序代理进行研究》

专知会员服务

35+阅读 · 2023年4月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

TensorFlow 2.0新特性之Ragged Tensor

TensorFlow 2.0新特性之Ragged Tensor

深度学习每日摘要

18+阅读 · 2019年4月5日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

论文浅尝 | 常识用于回答生成式多跳问题

论文浅尝 | 常识用于回答生成式多跳问题

开放知识图谱

16+阅读 · 2018年11月24日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

相关论文

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 3月1日

Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Arxiv

0+阅读 · 2月17日

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

Arxiv

0+阅读 · 2月15日

From Token to Line: Enhancing Code Generation with a Long-Term Perspective

Arxiv

0+阅读 · 2月9日

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

Arxiv

0+阅读 · 2月9日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

GMSA: Enhancing Context Compression via Group Merging and Layer Semantic Alignment

Arxiv

0+阅读 · 2月7日

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Arxiv

0+阅读 · 2月4日

Probe and Skip: Self-Predictive Token Skipping for Efficient Long-Context LLM Inference

Arxiv

0+阅读 · 2月2日

Can Vision-Language Models Handle Long-Context Code? An Empirical Study on Visual Compression

Arxiv

0+阅读 · 1月31日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的通信信号处理理论研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员