Scaling language models to longer contexts is essential for capturing rich dependencies across extended discourse. However, naïve context extension imposes significant computational and memory burdens, often resulting in inefficiencies during both training and inference. In this work, we propose CCF, a novel context compression framework designed to enable efficient long-context modeling by learning hierarchical latent representations that preserve global semantics while aggressively reducing input redundancy. CCF integrates segment-wise semantic aggregation with key-value memory encoding, forming compact representations that support accurate reconstruction and long-range understanding. To further enhance scalability, we introduce a training-efficient optimization strategy that couples incremental segment decoding with sparse reservoir sampling, substantially reducing memory overhead without degrading performance. Empirical results on multiple long-context language modeling benchmarks demonstrate that CCF achieves competitive perplexity under high compression ratios, and significantly improves throughput and memory efficiency compared to existing approaches. These findings highlight the potential of structured compression for scalable and effective long-context language modeling.


翻译:将语言模型扩展至更长上下文对于捕捉长距离语篇中的丰富依赖至关重要。然而,简单的上下文扩展会带来显著的计算与内存负担,常在训练和推理过程中导致效率低下。本文提出CCF,一种新颖的上下文压缩框架,旨在通过学习层次化的潜在表征来实现高效的长上下文建模,该表征在积极降低输入冗余的同时保留了全局语义。CCF将分段语义聚合与键值记忆编码相结合,形成支持精确重建和长距离理解的紧凑表征。为进一步提升可扩展性,我们引入了一种训练高效的优化策略,该策略将增量分段解码与稀疏储层采样相结合,在保持性能不下降的前提下显著降低了内存开销。在多个长上下文语言建模基准上的实验结果表明,CCF在高压缩比下实现了具有竞争力的困惑度,并且与现有方法相比,显著提升了吞吐量和内存效率。这些发现凸显了结构化压缩对于可扩展且高效的长上下文语言建模的潜力。

0
下载
关闭预览

相关内容

【博士论文】基于多模态基础模型的上下文学习
专知会员服务
22+阅读 · 2025年12月17日
130页pdf《长上下文语言建模综合研究》综述
专知会员服务
39+阅读 · 2025年3月25日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
报告 | 腾讯知文,从0到1打造下一代智能问答引擎【CCF-GAIR】
机器学习算法与Python学习
13+阅读 · 2018年7月4日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员