When Less is More: The LLM Scaling Paradox in Context Compression - 专知论文

会员服务 ·

0

上下文 · 知识 · 语言模型 · 大语言模型 · 解码 ·

When Less is More: The LLM Scaling Paradox in Context Compression

翻译：少即是多：上下文压缩中的大语言模型规模悖论

Ruishan Guo,Yibing Liu,Guoxin Ma,Yan Wang,Yueyang Zhang,Long Xia,Kecheng Chen,Zhiyuan Sun,Daiting Shi

from arxiv, 10 pages, 4 figures, conference

Scaling up model parameters has long been a prevalent training paradigm driven by the assumption that larger models yield superior generation capabilities. However, under lossy context compression in a compressor-decoder setup, we observe a Size-Fidelity Paradox: increasing the compressor size can lessen the faithfulness of reconstructed contexts though training loss decreases. Through extensive experiments across models from 0.6B to 90B, we coin this paradox arising from two dominant factors: 1) knowledge overwriting: larger models increasingly replace source facts with their own prior beliefs, e.g., ``the white strawberry'' $\to$ ``the red strawberry''; and 2) semantic drift: larger models tend to paraphrase or restructure content instead of reproducing it verbatim, e.g., ``Alice hit Bob'' $\to$ ``Bob hit Alice''. By holding model size fixed, we reflect on the emergent properties of compressed context representations. We show that the culprit is not parameter count itself, but the excessive semantic capacity and amplified generative uncertainty that accompany scaling. Specifically, the increased rank of context embeddings facilitates prior knowledge intrusion, whereas higher entropy over token prediction distributions promotes rewriting. Our results complement existing evaluations over context compression paradigm, underpinning a breakdown in scaling laws for faithful preservation in open-ended generation.

翻译：长期以来，扩大模型参数规模一直是一种主流的训练范式，其驱动力源于“模型越大，生成能力越优”的假设。然而，在压缩器-解码器架构的有损上下文压缩场景下，我们观察到一个规模-保真度悖论：增大压缩器规模反而会降低重建上下文的忠实度，尽管训练损失在减小。通过对0.6B至90B规模模型的广泛实验，我们将此悖论归因于两个主导因素：1）知识覆盖：更大规模的模型会越来越多地用其自身先验信念替换源事实，例如“白色草莓”→“红色草莓”；2）语义漂移：更大规模的模型倾向于对内容进行转述或重组，而非逐字复现，例如“Alice打了Bob”→“Bob打了Alice”。通过固定模型规模，我们深入分析了压缩上下文表征的涌现特性。研究表明，问题根源并非参数量本身，而是伴随规模扩展而过度增长的语义容量与放大的生成不确定性。具体而言，上下文嵌入秩的增加促进了先验知识的侵入，而词元预测分布熵值的提升则助长了改写行为。我们的研究成果补充了现有对上下文压缩范式的评估体系，揭示了在开放式生成任务中，忠实性保持的缩放定律存在失效现象。

0

相关内容

上下文

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

专知会员服务

43+阅读 · 2024年8月30日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

专知会员服务

74+阅读 · 2023年8月27日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

少即是多？非参数语言模型，68页ppt

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数逼近论的一些极值问题与多元线性问题的可处理性

国家自然科学基金

2+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Arxiv

0+阅读 · 3月17日

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Arxiv

0+阅读 · 3月1日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

Less is More: Improving LLM Alignment via Preference Data Selection

Arxiv

0+阅读 · 2月15日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月13日

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Arxiv

0+阅读 · 2月12日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月12日

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Arxiv

0+阅读 · 2月12日

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Arxiv

0+阅读 · 2月11日

Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

2+阅读 · 今天14:39

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

2+阅读 · 今天14:00

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

4+阅读 · 今天13:20

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

4+阅读 · 今天13:16

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

11+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

7+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

19+阅读 · 5月30日

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

如何构建高效多模态大模型？伯克利博士论文《高效且可扩展的大规模多模态模型》

专知会员服务

43+阅读 · 2024年8月30日

大型语言模型的模型压缩与高效推理：综述

大型语言模型的模型压缩与高效推理：综述

专知会员服务

94+阅读 · 2024年2月17日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

中国科学院团队首篇《大语言模型LLM模型压缩》综述：细聊剪枝、知识蒸馏、量化技术

专知会员服务

74+阅读 · 2023年8月27日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

少即是多？非参数语言模型，68页ppt

少即是多？非参数语言模型，68页ppt

专知会员服务

24+阅读 · 2020年11月22日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

帕兰蒂尔Maven：军事人工智能的新纪元

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

算法化战争：人工智能时代的新范式（万字长文）

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【最新综述】模型压缩与加速（附论文全文下载）

【最新综述】模型压缩与加速（附论文全文下载）

专知

28+阅读 · 2019年2月14日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

相关论文

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Arxiv

0+阅读 · 3月17日

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Arxiv

0+阅读 · 3月1日

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

Arxiv

0+阅读 · 2月20日

Less is More: Improving LLM Alignment via Preference Data Selection

Arxiv

0+阅读 · 2月15日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月13日

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Arxiv

0+阅读 · 2月12日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月12日

Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Arxiv

0+阅读 · 2月12日

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

Arxiv

0+阅读 · 2月11日

Data Distribution Matters: A Data-Centric Perspective on Context Compression for Large Language Model

Arxiv

0+阅读 · 2月2日

相关基金

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

函数逼近论的一些极值问题与多元线性问题的可处理性

国家自然科学基金

2+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员