Ensemble classifiers are predictive models that combine the results of simpler base models, often by majority vote. A classic example is random forests, which combine the predictions of decision trees. Ensembles that use more base models can be more accurate but also more costly to train and run. In this paper, we consider strategies for reducing the computational cost of binary classification using an approach from the field of sequential testing. Rather than evaluating all the base models and taking a majority vote, we evaluate the base models sequentially and stop execution when a clear majority emerges. We consider three different notions of optimality for early-stopping strategies that minimize the number of base models executed while controlling the rate of disagreement with the full ensemble. For each notion of optimality and allowable disagreement rate, we show that a linear program can be constructed and solved efficiently to find the optimal stopping strategy. We tested these methods on real-world datasets taken from the UC Irvine Machine Learning repository, and on the benchmark datasets proposed by Grinsztajn et al. We found that on most datasets, these methods provide speed-ups of 4x or more while controlling disagreement at 0.1%


翻译:集成分类器是一种预测模型,通过多数投票等方式整合多个基础模型的预测结果,典型示例为随机森林——其综合了多个决策树的预测。使用更多基础模型的集成虽能提升精度,但也导致训练与运行成本增加。本文提出一种基于顺序测试理论的策略,旨在降低二元分类问题的计算开销。该方法无需评估所有基础模型并进行多数投票,而是通过顺序评估基础模型,当出现明确多数结果时提前终止计算。我们针对三种不同的最优性定义,设计了最小化基础模型执行数量且控制与完整集成分类器差异率的提前终止策略。针对每种最优性定义及允许的差异率,证明可通过构造并高效求解线性规划来获取最优终止策略。我们在加州大学欧文分校机器学习库的真实数据集以及Grinsztajn等人提出的基准数据集上验证了该方法。实验结果表明,在多数数据集上,该方法可在控制差异率为0.1%的同时实现至少4倍的加速效果。

0
下载
关闭预览

相关内容

【牛津博士论文】序列机器学习的应用与方法论,137页pdf
【CVPR2024】生成式多模态模型是优秀的类增量学习器
专知会员服务
32+阅读 · 2024年3月28日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
18+阅读 · 2020年12月5日
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【牛津博士论文】序列机器学习的应用与方法论,137页pdf
【CVPR2024】生成式多模态模型是优秀的类增量学习器
专知会员服务
32+阅读 · 2024年3月28日
【AAAI2021】通过离散优化的可解释序列分类
专知会员服务
18+阅读 · 2020年12月5日
相关资讯
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员