The discretization of continuous numerical attributes remains a persistent computational bottleneck in the induction of decision trees, particularly as dataset dimensions scale. Building upon the recently proposed MSD-Splitting technique -- which bins continuous data using the empirical mean and standard deviation to dramatically improve the efficiency and accuracy of the C4.5 algorithm -- we introduce Adaptive MSD-Splitting (AMSD). While standard MSD-Splitting is highly effective for approximately symmetric distributions, its rigid adherence to fixed one-standard-deviation cutoffs can lead to catastrophic information loss in highly skewed data, a common artifact in real-world biomedical and financial datasets. AMSD addresses this by dynamically adjusting the standard deviation multiplier based on feature skewness, narrowing intervals in dense regions to preserve discriminative resolution. Furthermore, we integrate AMSD into ensemble methods, specifically presenting the Random Forest-AMSD (RF-AMSD) framework. Empirical evaluations on the Census Income, Heart Disease, Breast Cancer, and Forest Covertype datasets demonstrate that AMSD yields a 2-4% accuracy improvement over standard MSD-Splitting, while maintaining near-identical O(N) time complexity reductions compared to the O(N log N) exhaustive search. Our Random Forest extension achieves state-of-the-art accuracy at a fraction of standard computational costs, confirming the viability of adaptive statistical binning in large-scale ensemble learning architectures.


翻译:摘要:连续数值属性的离散化仍是决策树归纳中持续存在的计算瓶颈,尤其在数据集维度扩展时更为突出。基于近期提出的MSD-Splitting技术(利用经验均值和标准差对连续数据进行分箱,显著提升C4.5算法的效率与精度),我们提出自适应MSD-Splitting(AMSD)。标准MSD-Splitting在近似对称分布中表现高效,但其对固定一倍标准差阈值的刚性依赖,可能导致高度偏斜数据中出现灾难性信息损失——这是真实世界生物医学与金融数据集的常见特征。AMSD通过根据特征偏度动态调整标准差乘数来解决此问题:在密集区域收窄区间以保留判别分辨率。此外,我们将AMSD集成到集成方法中,具体提出随机森林-AMSD(RF-AMSD)框架。在人口普查收入、心脏病、乳腺癌及森林覆盖类型数据集上的实证评估表明:AMSD相比标准MSD-Splitting实现2-4%的准确率提升,同时保持近乎相同的O(N)时间复杂度缩减(相较于O(N log N)穷举搜索)。我们的随机森林扩展版本以标准计算成本的一小部分达到最优准确率,证实了自适应统计分箱在大规模集成学习架构中的可行性。

0
下载
关闭预览

相关内容

遥感中基于深度学习的领域自适应方法:全面综述
专知会员服务
19+阅读 · 2025年10月20日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
极市分享|王晋东 迁移学习中的领域自适应方法
极市平台
10+阅读 · 2017年12月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月13日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关VIP内容
遥感中基于深度学习的领域自适应方法:全面综述
专知会员服务
19+阅读 · 2025年10月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员