This paper advances the theoretical understanding of active learning label complexity for decision trees as binary classifiers. We make two main contributions. First, we provide the first analysis of the disagreement coefficient for decision trees-a key parameter governing active learning label complexity. Our analysis holds under two natural assumptions required for achieving polylogarithmic label complexity, (i) each root-to-leaf path queries distinct feature dimensions, and (ii) the input data has a regular, grid-like structure. We show these assumptions are essential, as relaxing them leads to polynomial label complexity. Second, we present the first general active learning algorithm for binary classification that achieves a multiplicative error guarantee, producing a $(1+ε)$-approximate classifier. By combining these results, we design an active learning algorithm for decision trees that uses only a polylogarithmic number of label queries in the dataset size, under the stated assumptions. Finally, we establish a label complexity lower bound, showing our algorithm's dependence on the error tolerance $ε$ is close to optimal.


翻译:本文推进了对决策树作为二元分类器的主动学习标签复杂度的理论理解。我们做出了两项主要贡献。首先,我们首次分析了决策树的不一致系数——这是控制主动学习标签复杂度的关键参数。我们的分析在实现多对数标签复杂度所需的两项自然假设下成立:(i) 每条从根节点到叶节点的路径查询不同的特征维度,以及 (ii) 输入数据具有规则的网格状结构。我们证明了这些假设是必要的,因为放宽它们会导致多项式标签复杂度。其次,我们提出了首个用于二元分类的通用主动学习算法,该算法实现了乘法误差保证,能产生一个$(1+ε)$-近似分类器。通过结合这些结果,我们设计了一种用于决策树的主动学习算法,在所述假设下,该算法仅使用数据集大小的多对数数量级的标签查询。最后,我们建立了一个标签复杂度下界,表明我们算法对误差容忍度$ε$的依赖接近最优。

0
下载
关闭预览

相关内容

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
129+阅读 · 2021年7月14日
专知会员服务
24+阅读 · 2021年1月30日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
129+阅读 · 2021年7月14日
专知会员服务
24+阅读 · 2021年1月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员