We use large language models (LLMs) to uncover long-ranged structure in English texts from a variety of sources. The conditional entropy or code length in many cases continues to decrease with context length at least to $N\sim 10^4$ characters, implying that there are direct dependencies or interactions across these distances. A corollary is that there are small but significant correlations between characters at these separations, as we show from the data independent of models. The distribution of code lengths reveals an emergent certainty about an increasing fraction of characters at large $N$. Over the course of model training, we observe different dynamics at long and short context lengths, suggesting that long-ranged structure is learned only gradually. Our results constrain efforts to build statistical physics models of LLMs or language itself.


翻译:我们利用大型语言模型(LLMs)揭示了来自多种来源的英语文本中的长程结构。在许多情况下,条件熵或编码长度至少会随着上下文长度(直至约 $N\sim 10^4$ 个字符)持续下降,这意味着在这些距离上存在直接的依赖关系或相互作用。一个推论是,在这些间隔距离上,字符之间存在微小但显著的相关性,正如我们从独立于模型的数据中所展示的那样。编码长度的分布揭示了在大 $N$ 条件下,对逐渐增大的字符比例存在一种涌现的确定性。在模型训练过程中,我们观察到长上下文长度和短上下文长度下的不同动态特征,这表明长程结构是逐渐习得的。我们的研究结果对构建LLMs或语言本身的统计物理模型的努力构成了约束。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
中文对比英文自然语言处理NLP的区别综述
AINLP
18+阅读 · 2019年3月20日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
《大型语言模型》最新全面概述
专知会员服务
111+阅读 · 2023年7月14日
相关资讯
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
中文对比英文自然语言处理NLP的区别综述
AINLP
18+阅读 · 2019年3月20日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
NLP预训练模型大集合!
机器之心
21+阅读 · 2018年12月28日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员