Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes - 专知论文

会员服务 ·

0

自适应 · 随机森林 · 属性 · 标准差 · 集成 ·

Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes

翻译：标题：自适应MSD-Splitting：针对偏斜连续属性增强C4.5与随机森林算法

The discretization of continuous numerical attributes remains a persistent computational bottleneck in the induction of decision trees, particularly as dataset dimensions scale. Building upon the recently proposed MSD-Splitting technique -- which bins continuous data using the empirical mean and standard deviation to dramatically improve the efficiency and accuracy of the C4.5 algorithm -- we introduce Adaptive MSD-Splitting (AMSD). While standard MSD-Splitting is highly effective for approximately symmetric distributions, its rigid adherence to fixed one-standard-deviation cutoffs can lead to catastrophic information loss in highly skewed data, a common artifact in real-world biomedical and financial datasets. AMSD addresses this by dynamically adjusting the standard deviation multiplier based on feature skewness, narrowing intervals in dense regions to preserve discriminative resolution. Furthermore, we integrate AMSD into ensemble methods, specifically presenting the Random Forest-AMSD (RF-AMSD) framework. Empirical evaluations on the Census Income, Heart Disease, Breast Cancer, and Forest Covertype datasets demonstrate that AMSD yields a 2-4% accuracy improvement over standard MSD-Splitting, while maintaining near-identical O(N) time complexity reductions compared to the O(N log N) exhaustive search. Our Random Forest extension achieves state-of-the-art accuracy at a fraction of standard computational costs, confirming the viability of adaptive statistical binning in large-scale ensemble learning architectures.

翻译：摘要：连续数值属性的离散化仍是决策树归纳中持续存在的计算瓶颈，尤其在数据集维度扩展时更为突出。基于近期提出的MSD-Splitting技术（利用经验均值和标准差对连续数据进行分箱，显著提升C4.5算法的效率与精度），我们提出自适应MSD-Splitting（AMSD）。标准MSD-Splitting在近似对称分布中表现高效，但其对固定一倍标准差阈值的刚性依赖，可能导致高度偏斜数据中出现灾难性信息损失——这是真实世界生物医学与金融数据集的常见特征。AMSD通过根据特征偏度动态调整标准差乘数来解决此问题：在密集区域收窄区间以保留判别分辨率。此外，我们将AMSD集成到集成方法中，具体提出随机森林-AMSD（RF-AMSD）框架。在人口普查收入、心脏病、乳腺癌及森林覆盖类型数据集上的实证评估表明：AMSD相比标准MSD-Splitting实现2-4%的准确率提升，同时保持近乎相同的O(N)时间复杂度缩减（相较于O(N log N)穷举搜索）。我们的随机森林扩展版本以标准计算成本的一小部分达到最优准确率，证实了自适应统计分箱在大规模集成学习架构中的可行性。

0

相关内容

自适应

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

19+阅读 · 2025年10月20日

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

专知会员服务

50+阅读 · 2025年9月8日

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

南大周志华团队开源深度森林软件包DF21：训练效率高、超参数少，普通设备就能跑

专知会员服务

21+阅读 · 2021年2月1日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

Arxiv

0+阅读 · 5月1日

Adaptive Autoguidance for Item-Side Fairness in Diffusion Recommender Systems

Arxiv

0+阅读 · 4月24日

Efficient Dataset Selection for Continual Adaptation of Generative Recommenders

Arxiv

0+阅读 · 4月9日

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Arxiv

0+阅读 · 4月1日

Spiking Layer-Adaptive Magnitude-based Pruning

Arxiv

0+阅读 · 3月16日

SALAD: Self-Adaptive Link Adaptation

Arxiv

0+阅读 · 3月13日

Adaptive Conditional Forest Sampling for Spectral Risk Optimisation under Decision-Dependent Uncertainty

Arxiv

0+阅读 · 3月12日

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

Arxiv

0+阅读 · 3月3日

Vectorized Adaptive Histograms for Sparse Oblique Forests

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

【博士论文】面向可扩展且可信智能系统的强化学习

【博士论文】面向可扩展且可信智能系统的强化学习

专知会员服务

0+阅读 · 今天12:32

世界动作模型: 具身AI的下一个前沿

世界动作模型: 具身AI的下一个前沿

专知会员服务

0+阅读 · 今天12:28

全球十大防空反导系统：列表、射程与用途

全球十大防空反导系统：列表、射程与用途

专知会员服务

10+阅读 · 今天3:53

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

专知会员服务

20+阅读 · 今天3:03

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

集中式指挥、分布式控制、脱节训练？——统一作战管理架构是北约分布式作战与训练的关键（中文版PDF下载）

专知会员服务

15+阅读 · 今天2:35

《实现协作自主：从人机团队到多智能体系统》190页

《实现协作自主：从人机团队到多智能体系统》190页

专知会员服务

11+阅读 · 今天2:31

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

《推进多智能体系统：面向可扩展与鲁棒的学习与控制》200页

专知会员服务

7+阅读 · 今天2:28

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

《基于事件相机的模拟与神经网络处理在自主空中加油中的应用》最新100页

专知会员服务

8+阅读 · 今天2:25

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

[ICML 2026] SOL：让大模型把算力花在关键Token上：自优化语言模型

专知会员服务

4+阅读 · 5月12日

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

7+阅读 · 5月12日

《美军软件工厂案例研究：空军数字人才的人员需求》

《美军软件工厂案例研究：空军数字人才的人员需求》

专知会员服务

11+阅读 · 5月12日

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

《美国防部DevSecOps实践现状：软件工厂之现代战争的数字兵工厂》47页文件

专知会员服务

11+阅读 · 5月12日

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

有意义的人类指挥：迈向军事人机交互新模型探析（中文版PDF下载，2.5万字，2026年）

专知会员服务

22+阅读 · 5月12日

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

10+阅读 · 5月12日

下一代软件定义无线电：锻造现代战场的数字支柱

下一代软件定义无线电：锻造现代战场的数字支柱

专知会员服务

9+阅读 · 5月12日

相关VIP内容

遥感中基于深度学习的领域自适应方法：全面综述

遥感中基于深度学习的领域自适应方法：全面综述

专知会员服务

19+阅读 · 2025年10月20日

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

推荐！《不确定性条件下的联合多域作战规划：自适应与模块化》最新174页博士论文

专知会员服务

50+阅读 · 2025年9月8日

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

【斯坦福博士论文】基于自适应采样的加速机器学习算法，113页pdf

专知会员服务

27+阅读 · 2023年6月25日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

南大周志华团队开源深度森林软件包DF21：训练效率高、超参数少，普通设备就能跑

专知会员服务

21+阅读 · 2021年2月1日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【Google-普林斯顿】从学习速率中解开自适应梯度法，Disentangling Adaptive Gradient

专知会员服务

19+阅读 · 2020年3月5日

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

【华南理工大学】无监督多类域自适应:理论、算法和实践，Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice

专知会员服务

32+阅读 · 2020年2月26日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

世界动作模型: 具身AI的下一个前沿

俄乌战争中的乌克兰一体化防空反导实战经验教训（5000字，中文版下载）

【博士论文】面向可扩展且可信智能系统的强化学习

全球十大防空反导系统：列表、射程与用途

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

自动特征工程在推荐系统中的研究

自动特征工程在推荐系统中的研究

DataFunTalk

10+阅读 · 2019年12月20日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

MSACT: Multistage Spatial Alignment for Stable Low-Latency Fine Manipulation

Arxiv

0+阅读 · 5月1日

Adaptive Autoguidance for Item-Side Fairness in Diffusion Recommender Systems

Arxiv

0+阅读 · 4月24日

Efficient Dataset Selection for Continual Adaptation of Generative Recommenders

Arxiv

0+阅读 · 4月9日

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Arxiv

0+阅读 · 4月1日

Spiking Layer-Adaptive Magnitude-based Pruning

Arxiv

0+阅读 · 3月16日

SALAD: Self-Adaptive Link Adaptation

Arxiv

0+阅读 · 3月13日

Adaptive Conditional Forest Sampling for Spectral Risk Optimisation under Decision-Dependent Uncertainty

Arxiv

0+阅读 · 3月12日

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

Arxiv

0+阅读 · 3月3日

Vectorized Adaptive Histograms for Sparse Oblique Forests

Arxiv

0+阅读 · 2月27日

相关基金

基于适应度值的信息反馈型群智能算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向动态优化问题的参数自适应及变结构生物地理学优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员