Approximating splits for decision trees quickly in sparse data streams - 专知论文

会员服务 ·

0

分割 · 近似 · 决策树 · 最优 · 稀疏 ·

Approximating splits for decision trees quickly in sparse data streams

翻译：稀疏数据流中决策树分割的快速近似

Decision trees are one of the most popular classifiers in the machine learning literature. While the most common decision tree learning algorithms treat data as a batch, numerous algorithms have been proposed to construct decision trees from a data stream. A standard training strategy involves augmenting the current tree by changing a leaf node into a split. Here we typically maintain counters in each leaf which allow us to determine the optimal split, and whether the split should be done. In this paper we focus on how to speed up the search for the optimal split when dealing with sparse binary features and a binary class. We focus on finding splits that have the approximately optimal information gain or Gini index. In both cases finding the optimal split can be done in $O(d)$ time, where $d$ is the number of features. We propose an algorithm that yields $(1 + α)$ approximation when using conditional entropy in amortized $O(α^{-1}(1 + m\log d) \log \log n)$ time, where $m$ is the number of 1s in a data point, and $n$ is the number of data points. Similarly, for Gini index, we achieve $(1 + α)$ approximation in amortized $O(α^{-1} + m \log d)$ time. Our approach is beneficial for sparse data where $m \ll d$. In our experiments we find almost-optimal splits efficiently, faster than the baseline, overperforming the theoretical approximation guarantees.

翻译：决策树是机器学习领域最流行的分类器之一。尽管最常见的决策树学习算法将数据视为批量处理，但已有大量算法被提出用于从数据流中构建决策树。一种标准的训练策略是通过将叶节点转换为分割来扩展当前树。通常，我们会在每个叶节点中维护计数器，以便确定最优分割以及是否应执行分割。本文重点关注在处理稀疏二元特征和二元类别时，如何加速寻找最优分割的过程。我们致力于寻找具有近似最优信息增益或基尼指数的分割。在这两种情况下，寻找最优分割的时间复杂度均为 $O(d)$，其中 $d$ 为特征数量。我们提出一种算法，在使用条件熵时，可在摊还 $O(α^{-1}(1 + m\log d) \log \log n)$ 时间内获得 $(1 + α)$ 近似解，其中 $m$ 为数据点中取值为1的特征数量，$n$ 为数据点数量。类似地，对于基尼指数，我们可在摊还 $O(α^{-1} + m \log d)$ 时间内实现 $(1 + α)$ 近似。我们的方法对 $m \ll d$ 的稀疏数据尤为有利。实验结果表明，我们的方法能高效地找到近似最优分割，其速度优于基线方法，且实际表现超越了理论近似保证。

0

相关内容

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

36+阅读 · 2025年5月7日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

专知会员服务

44+阅读 · 2024年1月10日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

专知会员服务

60+阅读 · 2023年4月12日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

31+阅读 · 2022年11月28日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

专知会员服务

106+阅读 · 2020年1月19日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

专知

10+阅读 · 2019年9月13日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

机器学习算法与Python学习

25+阅读 · 2017年12月30日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Active Learning for Decision Trees with Provable Guarantees

Arxiv

0+阅读 · 2月18日

Classification Trees with Valid Inference via the Exponential Mechanism

Arxiv

0+阅读 · 2月17日

Data-Aware and Scalable Sensitivity Analysis for Decision Tree Ensembles

Arxiv

0+阅读 · 2月7日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Active Learning for Decision Trees with Provable Guarantees

Arxiv

0+阅读 · 1月28日

Just in time Informed Trees: Manipulability-Aware Asymptotically Optimized Motion Planning

Arxiv

0+阅读 · 1月27日

Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift

Arxiv

0+阅读 · 1月23日

UFO Trees: Practical and Provably-Efficient Parallel Batch-Dynamic Trees

Arxiv

0+阅读 · 1月15日

Pruning as Evolution: Emergent Sparsity Through Selection Dynamics in Neural Networks

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

36+阅读 · 2025年5月7日

《概率结果下全局最优决策的高效树生成方法》最新30页报告

《概率结果下全局最优决策的高效树生成方法》最新30页报告

专知会员服务

16+阅读 · 2025年5月6日

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

【ETHZ博士论文】因果机器学习在数据驱动决策中的方法与应用，293页pdf

专知会员服务

44+阅读 · 2024年1月10日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策

专知会员服务

60+阅读 · 2023年4月12日

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

《子空间学习机 (SLM)：一种新的分类和回归方法》2022最新35页技术报告，美陆军研究实验室

专知会员服务

31+阅读 · 2022年11月28日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

基于决策树模型重用的分布变化流数据学习

专知会员服务

24+阅读 · 2021年1月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

专知会员服务

106+阅读 · 2020年1月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

【TPAMI2022】「深度学习图像分割」最新综述论文，带你全面了解100个10大类深度图像分割算法

专知

10+阅读 · 2022年4月11日

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

专知

10+阅读 · 2019年9月13日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

推荐 | 基于深度学习的图像语义分割方法回顾（附PDF下载）

机器学习算法与Python学习

25+阅读 · 2017年12月30日

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

如何用TensorFlow和TF-Slim实现图像标注、分类与分割

北京思腾合力科技有限公司

21+阅读 · 2017年11月24日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Active Learning for Decision Trees with Provable Guarantees

Arxiv

0+阅读 · 2月18日

Classification Trees with Valid Inference via the Exponential Mechanism

Arxiv

0+阅读 · 2月17日

Data-Aware and Scalable Sensitivity Analysis for Decision Tree Ensembles

Arxiv

0+阅读 · 2月7日

Selecting Hyperparameters for Tree-Boosting

Arxiv

0+阅读 · 2月5日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Active Learning for Decision Trees with Provable Guarantees

Arxiv

0+阅读 · 1月28日

Just in time Informed Trees: Manipulability-Aware Asymptotically Optimized Motion Planning

Arxiv

0+阅读 · 1月27日

Clustered random forests with correlated data for optimal estimation and inference under potential covariate shift

Arxiv

0+阅读 · 1月23日

UFO Trees: Practical and Provably-Efficient Parallel Batch-Dynamic Trees

Arxiv

0+阅读 · 1月15日

Pruning as Evolution: Emergent Sparsity Through Selection Dynamics in Neural Networks

Arxiv

0+阅读 · 1月14日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非监督决策树的模糊图割模型的彩色图像分割研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员