Large language models generate text through probabilistic sampling from high-dimensional distributions, yet how this process reshapes the structural statistical organization of language remains incompletely characterized. Here we show that lossless compression provides a simple, model-agnostic measure of statistical regularity that differentiates generative regimes directly from surface text. We analyze compression behavior across three progressively more complex information ecosystems: controlled human-LLM continuations, generative mediation of a knowledge infrastructure (Wikipedia vs. Grokipedia), and fully synthetic social interaction environments (Moltbook vs. Reddit). Across settings, compression reveals a persistent structural signature of probabilistic generation. In controlled and mediated contexts, LLM-produced language exhibits higher structural regularity and compressibility than human-written text, consistent with a concentration of output within highly recurrent statistical patterns. However, this signature shows scale dependence: in fragmented interaction environments the separation attenuates, suggesting a fundamental limit to surface-level distinguishability at small scales. This compressibility-based separation emerges consistently across models, tasks, and domains and can be observed directly from surface text without relying on model internals or semantic evaluation. Overall, our findings introduce a simple and robust framework for quantifying how generative systems reshape textual production, offering a structural perspective on the evolving complexity of communication.


翻译:大型语言模型通过从高维分布中进行概率采样来生成文本,然而这一过程如何重塑语言的结构统计组织仍未得到完整刻画。本文表明,无损压缩提供了一种简单、模型无关的统计规律性度量方法,能够直接从表层文本区分生成机制。我们分析了三种渐进复杂的信息生态系统中的压缩行为:受控的人机续写任务、知识基础设施的生成式中介(维基百科与Grokipedia对比),以及完全合成的社交互动环境(Moltbook与Reddit对比)。在所有场景中,压缩均揭示了概率生成过程存在的持续结构特征。在受控与中介语境下,LLM生成的语言比人类撰写的文本表现出更高的结构规律性与可压缩性,这与输出集中于高度重复的统计模式的现象一致。然而,该特征呈现尺度依赖性:在碎片化的互动环境中,区分度逐渐减弱,表明在小尺度上存在表层可区分性的根本极限。这种基于可压缩性的区分在不同模型、任务与领域中均稳定出现,且无需依赖模型内部结构或语义评估即可直接从表层文本观测到。总体而言,我们的研究提出了一个简单而稳健的量化框架,用于揭示生成式系统如何重塑文本生产,从而为理解通信演化的复杂性提供了结构视角。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员