Inference from tabular data, collections of continuous and categorical variables organized into matrices, is a foundation for modern technology and science. Yet, in contrast to the explosive changes in the rest of AI, the best practice for these predictive tasks has been relatively unchanged and is still primarily based on variations of Gradient Boosted Decision Trees (GBDTs). Very recently, there has been renewed interest in developing state-of-the-art methods for tabular data based on recent developments in neural networks and feature learning methods. In this work, we introduce xRFM, an algorithm that combines feature learning kernel machines with a tree structure to both adapt to the local structure of the data and scale to essentially unlimited amounts of training data. We show that compared to $31$ other methods, including recently introduced tabular foundation models (TabPFNv2) and GBDTs, xRFM achieves best performance across $100$ regression datasets and is competitive to the best methods across $200$ classification datasets outperforming GBDTs. Additionally, xRFM provides interpretability natively through the Average Gradient Outer Product.


翻译:从表格数据(由连续变量和分类变量组织而成的矩阵)中进行推理,是现代科技与科学的基础。然而,与人工智能其他领域的爆炸性变革相比,这些预测任务的最佳实践相对保持不变,仍主要基于梯度提升决策树(GBDT)的变体。近期,基于神经网络和特征学习方法的最新进展,开发用于表格数据的最先进方法重新引起了人们的兴趣。本文介绍了xRFM算法,它将特征学习核机与树结构相结合,既能适应数据的局部结构,又能扩展到本质上无限量的训练数据。我们证明,与包括近期提出的表格基础模型(TabPFNv2)和GBDT在内的31种其他方法相比,xRFM在100个回归数据集上取得了最佳性能,在200个分类数据集上与最优方法竞争并超越了GBDT。此外,xRFM通过平均梯度外积天然地提供了可解释性。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
R语言机器学习:xgboost的使用及其模型解释
R语言中文社区
11+阅读 · 2019年5月6日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
xgboost特征选择
数据挖掘入门与实战
39+阅读 · 2017年10月5日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员