The LZ78 Source - 专知论文

会员服务 ·

0

序列 · 几乎必然 · 概率 · 经验分布 · 近似 ·

The LZ78 Source

翻译：LZ78源

Naomi Sagan,Amir Dembo,Matthew Ho,Tsachy Weissman

from arxiv, 32 pages, 16 figures, IEEE Transactions on Information Theory

We study a family of processes generated according to sequential probability assignments induced by the LZ78 universal compressor. We characterize entropic and distributional properties such as their entropy and relative entropy rates, finite-state compressibility and log loss of their realizations, and the empirical distributions that they induce. Though not quite stationary, these sources are "almost stationary and ergodic;" similar to stationary and ergodic processes, they satisfy a Shannon-McMillan-Breiman-type property: the normalized log probability of their realizations converges almost surely to their entropy rate. Further, they are locally "almost i.i.d." in the sense that the finite-dimensional empirical distributions of their realizations converge almost surely to a deterministic i.i.d. law. However, unlike stationary ergodic sources, the finite-state compressibility of their realizations is almost surely strictly larger than their entropy rate by a "Jensen gap". We present simulations demonstrating the theoretical results. These sources allow to gauge the performance of sequential probability models, both classical and deep learning-based, on non-Markovian non-stationary data. As such, we apply realizations of the LZ78 source to the study of in-context learning in transformer models.

翻译：我们研究了一类由LZ78通用压缩器诱导的序贯概率分配所生成的过程。我们刻画了这些过程的熵与分布特性，包括其熵率与相对熵率、实现序列的有限状态压缩性及对数损失，以及它们所诱导的经验分布。尽管这些源并非严格平稳，但具有"近似平稳且遍历"的性质；类似于平稳遍历过程，它们满足一种香农-麦克米伦-布雷曼型性质：其实现序列的归一化对数概率几乎必然收敛于其熵率。此外，在局部意义上它们"近似独立同分布"，即其实现序列的有限维经验分布几乎必然收敛于一个确定性的独立同分布律。然而，与平稳遍历源不同，其实现序列的有限状态压缩率几乎必然严格大于其熵率，二者之差呈现"詹森缺口"。我们通过仿真展示了这些理论结果。这些源可用于评估经典及基于深度学习的序贯概率模型在非马尔可夫非平稳数据上的性能。因此，我们将LZ78源的实现序列应用于Transformer模型中的上下文学习研究。

0

相关内容

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。这里，元素之间的顺序非常重要。

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

专知会员服务

23+阅读 · 2023年12月16日

推荐！《系统簇结构与作战方案寻径工具（CnCPT）》MIT137页论文

推荐！《系统簇结构与作战方案寻径工具（CnCPT）》MIT137页论文

专知会员服务

56+阅读 · 2023年6月8日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

专知会员服务

21+阅读 · 2022年6月3日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【经典书】信息论原理，774页pdf

【经典书】信息论原理，774页pdf

专知会员服务

265+阅读 · 2021年3月22日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

124+阅读 · 2020年5月30日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

图分类相关资源大列表

图分类相关资源大列表

专知

11+阅读 · 2019年7月18日

Github库分享：超全的PyTorch学习资源汇总

Github库分享：超全的PyTorch学习资源汇总

专知

25+阅读 · 2019年5月9日

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开放知识图谱

11+阅读 · 2019年4月14日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

【资源推荐】情感分析资源列表

【资源推荐】情感分析资源列表

专知

31+阅读 · 2019年3月20日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一份超全的PyTorch资源列表（Github 2.2K星）

一份超全的PyTorch资源列表（Github 2.2K星）

黑龙江大学自然语言处理实验室

25+阅读 · 2018年10月26日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

若干类ABSDEs以及其他类型BSDEs的研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类非线性偏微分方程组的行波解与平衡解的定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

套子代数的Hochschild上同调及套的分类

国家自然科学基金

3+阅读 · 2014年12月31日

离散时间马氏链的泛函不等式及遍历性

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

The $α$--regression for compositional data: a unified framework for standard, temporal and spatial regression models including compositional predictors

Arxiv

0+阅读 · 6月4日

ACEAPEX: Parallel LZ77 Decoding via Encode-Time Absolute Offset Resolution

Arxiv

0+阅读 · 6月2日

Exponential Error Bounds for Information Bottleneck Source Coding Problems

Arxiv

0+阅读 · 4月20日

Erlang Binary and Source Code Obfuscation

Arxiv

0+阅读 · 4月15日

Emergence of Complex Structures

Arxiv

0+阅读 · 4月13日

Computational bottlenecks for denoising diffusions

Arxiv

0+阅读 · 4月8日

The Information Dynamics of Generative Diffusion

Arxiv

0+阅读 · 3月26日

Exploring Collatz Dynamics with Human-LLM Collaboration

Arxiv

0+阅读 · 3月24日

Variational Bayesian Personalized Ranking

Arxiv

0+阅读 · 3月24日

Invariant Theory, Magic State Distillation, and Bounds on Classical Codes

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

5+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

9+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

5+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

11+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

8+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

11+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

11+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

13+阅读 · 7月14日

相关VIP内容

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

专知会员服务

23+阅读 · 2023年12月16日

推荐！《系统簇结构与作战方案寻径工具（CnCPT）》MIT137页论文

推荐！《系统簇结构与作战方案寻径工具（CnCPT）》MIT137页论文

专知会员服务

56+阅读 · 2023年6月8日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

专知会员服务

21+阅读 · 2022年6月3日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【经典书】信息论原理，774页pdf

【经典书】信息论原理，774页pdf

专知会员服务

265+阅读 · 2021年3月22日

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

【伯克利Payam博士论文】大规模稀疏图的问题探究: 图压缩与负载均衡，268页pdf

专知会员服务

20+阅读 · 2020年11月4日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

124+阅读 · 2020年5月30日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

图分类相关资源大列表

图分类相关资源大列表

专知

11+阅读 · 2019年7月18日

Github库分享：超全的PyTorch学习资源汇总

Github库分享：超全的PyTorch学习资源汇总

专知

25+阅读 · 2019年5月9日

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG，开放 8000 万中文百科知识三元组数据

开放知识图谱

11+阅读 · 2019年4月14日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

【资源推荐】情感分析资源列表

【资源推荐】情感分析资源列表

专知

31+阅读 · 2019年3月20日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一份超全的PyTorch资源列表（Github 2.2K星）

一份超全的PyTorch资源列表（Github 2.2K星）

黑龙江大学自然语言处理实验室

25+阅读 · 2018年10月26日

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

【干货】库、教程、论文实现，这是一份超全的PyTorch资源列表（Github 2.2K星）

GAN生成式对抗网络

10+阅读 · 2018年10月21日

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

【收藏】机器学习的Pytorch实现资源集合【附下载链接】

机器学习算法与Python学习

10+阅读 · 2018年9月8日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

相关论文

The $α$--regression for compositional data: a unified framework for standard, temporal and spatial regression models including compositional predictors

Arxiv

0+阅读 · 6月4日

ACEAPEX: Parallel LZ77 Decoding via Encode-Time Absolute Offset Resolution

Arxiv

0+阅读 · 6月2日

Exponential Error Bounds for Information Bottleneck Source Coding Problems

Arxiv

0+阅读 · 4月20日

Erlang Binary and Source Code Obfuscation

Arxiv

0+阅读 · 4月15日

Emergence of Complex Structures

Arxiv

0+阅读 · 4月13日

Computational bottlenecks for denoising diffusions

Arxiv

0+阅读 · 4月8日

The Information Dynamics of Generative Diffusion

Arxiv

0+阅读 · 3月26日

Exploring Collatz Dynamics with Human-LLM Collaboration

Arxiv

0+阅读 · 3月24日

Variational Bayesian Personalized Ranking

Arxiv

0+阅读 · 3月24日

Invariant Theory, Magic State Distillation, and Bounds on Classical Codes

Arxiv

0+阅读 · 3月23日

相关基金

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机动力系统的逼近和跑出问题

国家自然科学基金

0+阅读 · 2015年12月31日

自相似序列的无理指数、分形及相关问题

国家自然科学基金

0+阅读 · 2015年12月31日

多信源协作网络编码与QC-LDPC码的联合设计和迭代译码研究

国家自然科学基金

0+阅读 · 2015年12月31日

若干类ABSDEs以及其他类型BSDEs的研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类非线性偏微分方程组的行波解与平衡解的定性研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

套子代数的Hochschild上同调及套的分类

国家自然科学基金

3+阅读 · 2014年12月31日

离散时间马氏链的泛函不等式及遍历性

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员