大型语言模型与英语的熵 (Large language models and the entropy of English) - 专知论文

会员服务 ·

0

上下文 · 结构 · 语言模型 · 大语言模型 · 条件熵 ·

2025 年 12 月 31 日

Large language models and the entropy of English

翻译：大型语言模型与英语的熵

Colin Scheibner,Lindsay M. Smith,William Bialek

from arxiv, 8 pages, 6 figures

We use large language models (LLMs) to uncover long-ranged structure in English texts from a variety of sources. The conditional entropy or code length in many cases continues to decrease with context length at least to $N\sim 10^4$ characters, implying that there are direct dependencies or interactions across these distances. A corollary is that there are small but significant correlations between characters at these separations, as we show from the data independent of models. The distribution of code lengths reveals an emergent certainty about an increasing fraction of characters at large $N$. Over the course of model training, we observe different dynamics at long and short context lengths, suggesting that long-ranged structure is learned only gradually. Our results constrain efforts to build statistical physics models of LLMs or language itself.

翻译：我们利用大型语言模型（LLMs）揭示了来自多种来源的英语文本中的长程结构。在许多情况下，条件熵或编码长度至少会随着上下文长度（直至约 $N\sim 10^4$ 个字符）持续下降，这意味着在这些距离上存在直接的依赖关系或相互作用。一个推论是，在这些间隔距离上，字符之间存在微小但显著的相关性，正如我们从独立于模型的数据中所展示的那样。编码长度的分布揭示了在大 $N$ 条件下，对逐渐增大的字符比例存在一种涌现的确定性。在模型训练过程中，我们观察到长上下文长度和短上下文长度下的不同动态特征，这表明长程结构是逐渐习得的。我们的研究结果对构建LLMs或语言本身的统计物理模型的努力构成了约束。

0

相关内容

上下文

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

扩展英语大语言模型到新语言的综述

扩展英语大语言模型到新语言的综述

专知会员服务

18+阅读 · 2024年8月15日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Evaluating and Steering Modality Preferences in Multimodal Large Language Model

Arxiv

0+阅读 · 2月4日

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 2月3日

Epistemic Diversity and Knowledge Collapse in Large Language Models

Arxiv

0+阅读 · 1月28日

Large Language Models as Proxies for Theories of Human Linguistic Cognition

Arxiv

0+阅读 · 1月26日

Large Language Models Encode Semantics and Alignment in Linearly Separable Representations

Arxiv

0+阅读 · 1月21日

Scientific production in the era of Large Language Models

Arxiv

0+阅读 · 1月19日

Exploring the Translation Mechanism of Large Language Models

Arxiv

0+阅读 · 1月15日

On the Entropy Calibration of Language Models

Arxiv

0+阅读 · 1月13日

Structured Reasoning for Large Language Models

Arxiv

0+阅读 · 1月12日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

扩展英语大语言模型到新语言的综述

扩展英语大语言模型到新语言的综述

专知会员服务

18+阅读 · 2024年8月15日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

机器学习各种熵：从入门到全面掌握

机器学习各种熵：从入门到全面掌握

AI研习社

10+阅读 · 2018年3月22日

【直观详解】信息熵、交叉熵和相对熵

【直观详解】信息熵、交叉熵和相对熵

机器学习研究会

10+阅读 · 2017年11月7日

相关论文

Evaluating and Steering Modality Preferences in Multimodal Large Language Model

Arxiv

0+阅读 · 2月4日

On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Arxiv

0+阅读 · 2月3日

Epistemic Diversity and Knowledge Collapse in Large Language Models

Arxiv

0+阅读 · 1月28日

Large Language Models as Proxies for Theories of Human Linguistic Cognition

Arxiv

0+阅读 · 1月26日

Large Language Models Encode Semantics and Alignment in Linearly Separable Representations

Arxiv

0+阅读 · 1月21日

Scientific production in the era of Large Language Models

Arxiv

0+阅读 · 1月19日

Exploring the Translation Mechanism of Large Language Models

Arxiv

0+阅读 · 1月15日

On the Entropy Calibration of Language Models

Arxiv

0+阅读 · 1月13日

Structured Reasoning for Large Language Models

Arxiv

0+阅读 · 1月12日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

光滑函数类的熵数估计

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

大尺度变形的三维几何模型的对应关系和分割问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

生物膜间的熵力及其性质研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员