We extend classical rate-distortion theory to a discrete classification setting with three resources: tag rate $L$ (bits of storage per entity), identification cost $W$ (queries to determine class membership), and distortion $D$ (misidentification probability). We prove an information barrier: when distinct classes share identical attribute profiles (i.e., the attribute-profile map $π$ is not injective on classes), zero-error identification from attribute queries alone is impossible. We characterize the unique Pareto-optimal zero-error point in the $(L,W,D)$ tradeoff space: a nominal tag of length $L=\lceil\log_2 k\rceil$ bits for $k$ classes yields $W=O(1)$ and $D=0$. Without tags ($L=0$), zero-error identification requires $W=Ω(d)$ attribute queries, where $d$ is the distinguishing dimension; in the worst case $d=n$ (the ambient attribute count), giving $W=Ω(n)$. In the presence of attribute collisions, any tag-free scheme incurs $D>0$. Conversely, in any information-barrier domain, any scheme achieving $D=0$ requires $L\ge \log_2 k$ bits; this is tight. We show minimal sufficient query sets form the bases of a matroid, so the distinguishing dimension is well-defined, connecting to zero-error source coding via graph entropy. We instantiate the theory to type systems, databases, and biological taxonomy. All results are machine-checked in Lean 4 (6000+ lines, 0 sorry).


翻译:我们将经典率失真理论拓展至具有三种资源的离散分类场景:标签速率$L$(每个实体的存储比特数)、识别成本$W$(确定类别归属所需的查询次数)和失真$D$(误识别概率)。我们证明了一个信息障碍:当不同类别具有完全相同的属性特征(即属性特征映射$π$在类别上非单射)时,仅通过属性查询实现零误差识别是不可能的。我们刻画了$(L,W,D)$权衡空间中唯一的帕累托最优零误差点:对于$k$个类别,长度为$L=\lceil\log_2 k\rceil$比特的名义标签可实现$W=O(1)$和$D=0$。在无标签情况下($L=0$),零误差识别需要$W=Ω(d)$次属性查询,其中$d$为区分维度;最坏情况下$d=n$(环境属性总数),此时$W=Ω(n)$。当存在属性碰撞时,任何无标签方案必然导致$D>0$。反之,在任何存在信息障碍的领域中,任何实现$D=0$的方案都需要$L\ge \log_2 k$比特;该界限是紧的。我们证明最小充分查询集构成拟阵的基,因此区分维度是良定义的,并通过图熵与零误差信源编码理论建立联系。我们将该理论实例化于类型系统、数据库和生物分类学中。所有结果均在Lean 4中完成机器验证(6000+行代码,0处未证明声明)。

0
下载
关闭预览

相关内容

20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
20年单类别(One-Class)分类全面综述论文,从2001到2020
专知会员服务
23+阅读 · 2021年1月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员