We study a family of processes generated according to sequential probability assignments induced by the LZ78 universal compressor. We characterize entropic and distributional properties such as their entropy and relative entropy rates, finite-state compressibility and log loss of their realizations, and the empirical distributions that they induce. Though not quite stationary, these sources are "almost stationary and ergodic;" similar to stationary and ergodic processes, they satisfy a Shannon-McMillan-Breiman-type property: the normalized log probability of their realizations converges almost surely to their entropy rate. Further, they are locally "almost i.i.d." in the sense that the finite-dimensional empirical distributions of their realizations converge almost surely to a deterministic i.i.d. law. However, unlike stationary ergodic sources, the finite-state compressibility of their realizations is almost surely strictly larger than their entropy rate by a "Jensen gap". We present simulations demonstrating the theoretical results. These sources allow to gauge the performance of sequential probability models, both classical and deep learning-based, on non-Markovian non-stationary data. As such, we apply realizations of the LZ78 source to the study of in-context learning in transformer models.


翻译:我们研究了一类由LZ78通用压缩器诱导的序贯概率分配所生成的过程。我们刻画了这些过程的熵与分布特性,包括其熵率与相对熵率、实现序列的有限状态压缩性及对数损失,以及它们所诱导的经验分布。尽管这些源并非严格平稳,但具有"近似平稳且遍历"的性质;类似于平稳遍历过程,它们满足一种香农-麦克米伦-布雷曼型性质:其实现序列的归一化对数概率几乎必然收敛于其熵率。此外,在局部意义上它们"近似独立同分布",即其实现序列的有限维经验分布几乎必然收敛于一个确定性的独立同分布律。然而,与平稳遍历源不同,其实现序列的有限状态压缩率几乎必然严格大于其熵率,二者之差呈现"詹森缺口"。我们通过仿真展示了这些理论结果。这些源可用于评估经典及基于深度学习的序贯概率模型在非马尔可夫非平稳数据上的性能。因此,我们将LZ78源的实现序列应用于Transformer模型中的上下文学习研究。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
【Yoshua Bengio最新一作论文】GFlowNet基础,GFlowNet Foundations
专知会员服务
26+阅读 · 2021年11月22日
【经典书】信息论原理,774页pdf
专知会员服务
265+阅读 · 2021年3月22日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
图分类相关资源大列表
专知
11+阅读 · 2019年7月18日
Github库分享:超全的PyTorch学习资源汇总
专知
25+阅读 · 2019年5月9日
【资源推荐】模型压缩与加速相关资源汇总
【资源推荐】情感分析资源列表
专知
31+阅读 · 2019年3月20日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
一份超全的PyTorch资源列表(Github 2.2K星)
黑龙江大学自然语言处理实验室
25+阅读 · 2018年10月26日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月15日
Arxiv
0+阅读 · 3月24日
Arxiv
0+阅读 · 3月13日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关资讯
图分类相关资源大列表
专知
11+阅读 · 2019年7月18日
Github库分享:超全的PyTorch学习资源汇总
专知
25+阅读 · 2019年5月9日
【资源推荐】模型压缩与加速相关资源汇总
【资源推荐】情感分析资源列表
专知
31+阅读 · 2019年3月20日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
一份超全的PyTorch资源列表(Github 2.2K星)
黑龙江大学自然语言处理实验室
25+阅读 · 2018年10月26日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员