Identification capacity and rate-query tradeoffs in classification systems - 专知论文

会员服务 ·

0

识别 · 属性 · 类别 · 系统 · 比特 ·

Identification capacity and rate-query tradeoffs in classification systems

翻译：分类系统中的识别容量与速率-查询权衡

from arxiv, 15 pages, 1 table. Lean 4 formalization (6,100+ lines, 0 sorry) included in source and archived at https://doi.org/10.5281/zenodo.18261188

We extend classical rate-distortion theory to a discrete classification setting with three resources: tag rate $L$ (bits of storage per entity), identification cost $W$ (queries to determine class membership), and distortion $D$ (misidentification probability). We prove an information barrier: when distinct classes share identical attribute profiles (i.e., the attribute-profile map $π$ is not injective on classes), zero-error identification from attribute queries alone is impossible. We characterize the unique Pareto-optimal zero-error point in the $(L,W,D)$ tradeoff space: a nominal tag of length $L=\lceil\log_2 k\rceil$ bits for $k$ classes yields $W=O(1)$ and $D=0$. Without tags ($L=0$), zero-error identification requires $W=Ω(d)$ attribute queries, where $d$ is the distinguishing dimension; in the worst case $d=n$ (the ambient attribute count), giving $W=Ω(n)$. In the presence of attribute collisions, any tag-free scheme incurs $D>0$. Conversely, in any information-barrier domain, any scheme achieving $D=0$ requires $L\ge \log_2 k$ bits; this is tight. We show minimal sufficient query sets form the bases of a matroid, so the distinguishing dimension is well-defined, connecting to zero-error source coding via graph entropy. We instantiate the theory to type systems, databases, and biological taxonomy. All results are machine-checked in Lean 4 (6000+ lines, 0 sorry).

翻译：我们将经典率失真理论拓展至具有三种资源的离散分类场景：标签速率$L$（每个实体的存储比特数）、识别成本$W$（确定类别归属所需的查询次数）和失真$D$（误识别概率）。我们证明了一个信息障碍：当不同类别具有完全相同的属性特征（即属性特征映射$π$在类别上非单射）时，仅通过属性查询实现零误差识别是不可能的。我们刻画了$(L,W,D)$权衡空间中唯一的帕累托最优零误差点：对于$k$个类别，长度为$L=\lceil\log_2 k\rceil$比特的名义标签可实现$W=O(1)$和$D=0$。在无标签情况下（$L=0$），零误差识别需要$W=Ω(d)$次属性查询，其中$d$为区分维度；最坏情况下$d=n$（环境属性总数），此时$W=Ω(n)$。当存在属性碰撞时，任何无标签方案必然导致$D>0$。反之，在任何存在信息障碍的领域中，任何实现$D=0$的方案都需要$L\ge \log_2 k$比特；该界限是紧的。我们证明最小充分查询集构成拟阵的基，因此区分维度是良定义的，并通过图熵与零误差信源编码理论建立联系。我们将该理论实例化于类型系统、数据库和生物分类学中。所有结果均在Lean 4中完成机器验证（6000+行代码，0处未证明声明）。

0

相关内容

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

20年单类别(One-Class)分类全面综述论文，从2001到2020

20年单类别(One-Class)分类全面综述论文，从2001到2020

专知会员服务

23+阅读 · 2021年1月12日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

70+阅读 · 2020年3月30日

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

专知会员服务

62+阅读 · 2020年3月23日

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

专知会员服务

76+阅读 · 2020年1月16日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【KDD2019|讲座推荐】成本敏感多类多标签分类研究进展：Advances in Cost-sensitive Multiclass and Multilabel Classification

【KDD2019|讲座推荐】成本敏感多类多标签分类研究进展：Advances in Cost-sensitive Multiclass and Multilabel Classification

专知会员服务

20+阅读 · 2019年12月9日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

【电子书推荐】机器学习、神经网络和统计分类（Machine Learning, Neural Networks, and Statistical Classification）

【电子书推荐】机器学习、神经网络和统计分类（Machine Learning, Neural Networks, and Statistical Classification）

专知会员服务

29+阅读 · 2019年11月19日

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑物品种类有限性的分类存储策略及仓储系统优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Rate-Reliability Tradeoff for Deterministic Identification over Gaussian Channels

Arxiv

0+阅读 · 2月12日

Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks

Arxiv

0+阅读 · 2月3日

Recalibrating binary probabilistic classifiers

Arxiv

0+阅读 · 1月21日

Storage-Rate Trade-off in A-XPIR

Arxiv

0+阅读 · 1月20日

Trading off Consistency and Dimensionality of Convex Surrogates for the Mode

Arxiv

0+阅读 · 1月17日

Rate-Distortion-Classification Representation Theory for Bernoulli Sources

Arxiv

0+阅读 · 1月17日

Validating Search Query Simulations: A Taxonomy of Measures

Arxiv

0+阅读 · 1月16日

Classification Imbalance as Transfer Learning

Arxiv

0+阅读 · 1月15日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

20年单类别(One-Class)分类全面综述论文，从2001到2020

20年单类别(One-Class)分类全面综述论文，从2001到2020

专知会员服务

23+阅读 · 2021年1月12日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

70+阅读 · 2020年3月30日

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

专知会员服务

62+阅读 · 2020年3月23日

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

【AAAI2020-清华大学】张量图卷积网络文本分类，Tensor Graph Convolutional Networks for Text Classification

专知会员服务

76+阅读 · 2020年1月16日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【KDD2019|讲座推荐】成本敏感多类多标签分类研究进展：Advances in Cost-sensitive Multiclass and Multilabel Classification

【KDD2019|讲座推荐】成本敏感多类多标签分类研究进展：Advances in Cost-sensitive Multiclass and Multilabel Classification

专知会员服务

20+阅读 · 2019年12月9日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

【电子书推荐】机器学习、神经网络和统计分类（Machine Learning, Neural Networks, and Statistical Classification）

【电子书推荐】机器学习、神经网络和统计分类（Machine Learning, Neural Networks, and Statistical Classification）

专知会员服务

29+阅读 · 2019年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

【2020新书】MySQL 8查询性能调优，974页pdf，一种提高执行速度的系统方法

专知

15+阅读 · 2020年3月25日

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

【论文】Awesome Relation Classification Paper（关系分类）（PART II）

AINLP

15+阅读 · 2019年8月12日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

专知

22+阅读 · 2018年4月21日

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

【论文推荐】最新六篇视频分类相关论文—层次标签推断、知识图谱、CNNs、DAiSEE、表观和关系网络、转移学习

专知

14+阅读 · 2018年2月18日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Rate-Reliability Tradeoff for Deterministic Identification over Gaussian Channels

Arxiv

0+阅读 · 2月12日

Feature, Alignment, and Supervision in Category Learning: A Comparative Approach with Children and Neural Networks

Arxiv

0+阅读 · 2月3日

Recalibrating binary probabilistic classifiers

Arxiv

0+阅读 · 1月21日

Storage-Rate Trade-off in A-XPIR

Arxiv

0+阅读 · 1月20日

Trading off Consistency and Dimensionality of Convex Surrogates for the Mode

Arxiv

0+阅读 · 1月17日

Rate-Distortion-Classification Representation Theory for Bernoulli Sources

Arxiv

0+阅读 · 1月17日

Validating Search Query Simulations: A Taxonomy of Measures

Arxiv

0+阅读 · 1月16日

Classification Imbalance as Transfer Learning

Arxiv

0+阅读 · 1月15日

EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Arxiv

0+阅读 · 1月13日

相关基金

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

国家自然科学基金

1+阅读 · 2017年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

考虑物品种类有限性的分类存储策略及仓储系统优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向光谱-空间特征集合的高光谱遥感影像度量学习与分类研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

高光谱遥感影像联合字典学习与分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员