Can we learn more from data than existed in the generating process itself? Can new and useful information be constructed from merely applying deterministic transformations to existing data? Can the learnable content in data be evaluated without considering a downstream task? On these questions, Shannon information and Kolmogorov complexity come up nearly empty-handed, in part because they assume observers with unlimited computational capacity and do not target the useful information content. In this work, we identify and exemplify three seeming paradoxes in information theory: (1) information cannot be increased by deterministic transformations; (2) information is independent of the order of data; (3) likelihood modeling is merely distribution matching. To shed light on the tension between these results and modern practice, and to quantify the value of data, we introduce epiplexity, a formalization of information capturing what computationally bounded observers can learn from data. Epiplexity captures the structural content in data while excluding time-bounded entropy, the random unpredictable content exemplified by pseudorandom number generators and chaotic dynamical systems. With these concepts, we demonstrate how information can be created with computation, how it depends on the ordering of the data, and how likelihood modeling can produce more complex programs than present in the data generating process itself. We also present practical procedures to estimate epiplexity which we show capture differences across data sources, track with downstream performance, and highlight dataset interventions that improve out-of-distribution generalization. In contrast to principles of model selection, epiplexity provides a theoretical foundation for data selection, guiding how to select, generate, or transform data for learning systems.


翻译:我们能否从数据中学到比生成过程本身更多的东西?仅通过对现有数据应用确定性变换,能否构造出新的有用信息?能否在不考虑下游任务的情况下评估数据中的可学习内容?对于这些问题,香农信息论和柯尔莫哥洛夫复杂性几乎无法给出答案,部分原因在于它们假设观察者具有无限计算能力,且不关注有用信息内容。本研究识别并例证了信息论中三个看似矛盾的现象:(1)确定性变换无法增加信息;(2)信息与数据顺序无关;(3)似然建模仅是分布匹配。为阐明这些结论与现代实践之间的张力,并量化数据价值,我们引入复杂性——一种形式化的信息度量,用于刻画计算受限观察者能从数据中学习的内容。复杂性捕捉数据中的结构化内容,同时排除时间受限熵(即伪随机数生成器和混沌动力系统所例示的随机不可预测内容)。基于这些概念,我们论证了信息如何通过计算被创造、如何依赖于数据排序,以及似然建模如何产生比数据生成过程本身更复杂的程序。我们还提出了估计复杂性的实用方法,实验表明这些方法能捕捉不同数据源的差异、跟踪下游性能表现,并突出能改善分布外泛化能力的数据集干预措施。与模型选择原则相比,复杂性为数据选择提供了理论基础,指导如何为学习系统选择、生成或转换数据。

0
下载
关闭预览

相关内容

【干货书】《信息论: 从编码到学习(2022第三版)》
专知会员服务
78+阅读 · 2023年3月19日
最新《计算机视觉持续学习进展》综述论文,22页pdf
专知会员服务
74+阅读 · 2021年9月25日
经典书《复杂性思考》,158页pdf
专知会员服务
86+阅读 · 2021年5月8日
专知会员服务
119+阅读 · 2021年3月23日
从信息瓶颈理论一瞥机器学习的“大一统理论”
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
内省扩散语言模型
专知会员服务
3+阅读 · 4月14日
国外反无人机系统与技术动态
专知会员服务
3+阅读 · 4月14日
大规模作战行动中的战术作战评估(研究论文)
未来的海战无人自主系统
专知会员服务
3+阅读 · 4月14日
美军多域作战现状分析:战略、概念还是幻想?
无人机与反无人机系统(书籍)
专知会员服务
19+阅读 · 4月14日
美陆军2026条令:安全与机动支援
专知会员服务
9+阅读 · 4月14日
相关VIP内容
【干货书】《信息论: 从编码到学习(2022第三版)》
专知会员服务
78+阅读 · 2023年3月19日
最新《计算机视觉持续学习进展》综述论文,22页pdf
专知会员服务
74+阅读 · 2021年9月25日
经典书《复杂性思考》,158页pdf
专知会员服务
86+阅读 · 2021年5月8日
专知会员服务
119+阅读 · 2021年3月23日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员