xRFM: Accurate, scalable, and interpretable feature learning models for tabular data - 专知论文

会员服务 ·

0

Learning · 表征学习 · MoDELS · 数据集 · 推断 ·

xRFM: Accurate, scalable, and interpretable feature learning models for tabular data

翻译：xRFM：面向表格数据的精确、可扩展且可解释的特征学习模型

Daniel Beaglehole,David Holzmüller,Adityanarayanan Radhakrishnan,Mikhail Belkin

Inference from tabular data, collections of continuous and categorical variables organized into matrices, is a foundation for modern technology and science. Yet, in contrast to the explosive changes in the rest of AI, the best practice for these predictive tasks has been relatively unchanged and is still primarily based on variations of Gradient Boosted Decision Trees (GBDTs). Very recently, there has been renewed interest in developing state-of-the-art methods for tabular data based on recent developments in neural networks and feature learning methods. In this work, we introduce xRFM, an algorithm that combines feature learning kernel machines with a tree structure to both adapt to the local structure of the data and scale to essentially unlimited amounts of training data. We show that compared to $31$ other methods, including recently introduced tabular foundation models (TabPFNv2) and GBDTs, xRFM achieves best performance across $100$ regression datasets and is competitive to the best methods across $200$ classification datasets outperforming GBDTs. Additionally, xRFM provides interpretability natively through the Average Gradient Outer Product.

翻译：从表格数据（由连续变量和分类变量组织而成的矩阵）中进行推理，是现代科技与科学的基础。然而，与人工智能其他领域的爆炸性变革相比，这些预测任务的最佳实践相对保持不变，仍主要基于梯度提升决策树（GBDT）的变体。近期，基于神经网络和特征学习方法的最新进展，开发用于表格数据的最先进方法重新引起了人们的兴趣。本文介绍了xRFM算法，它将特征学习核机与树结构相结合，既能适应数据的局部结构，又能扩展到本质上无限量的训练数据。我们证明，与包括近期提出的表格基础模型（TabPFNv2）和GBDT在内的31种其他方法相比，xRFM在100个回归数据集上取得了最佳性能，在200个分类数据集上与最优方法竞争并超越了GBDT。此外，xRFM通过平均梯度外积天然地提供了可解释性。

0

相关内容

Learning

表格数据表示学习综述

表格数据表示学习综述

专知会员服务

18+阅读 · 2025年4月27日

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

专知会员服务

29+阅读 · 2025年1月27日

《深度表格学习综述》

《深度表格学习综述》

专知会员服务

44+阅读 · 2024年10月18日

GNN如何处理表格？NCKU等最新《图神经网络表格数据学习》综述，详述其技术体系和方向

GNN如何处理表格？NCKU等最新《图神经网络表格数据学习》综述，详述其技术体系和方向

专知会员服务

37+阅读 · 2024年1月6日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

基于表格数据的深度学习方法

基于表格数据的深度学习方法

专知会员服务

40+阅读 · 2021年10月19日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

R语言机器学习：xgboost的使用及其模型解释

R语言机器学习：xgboost的使用及其模型解释

R语言中文社区

11+阅读 · 2019年5月6日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

xgboost特征选择

xgboost特征选择

数据挖掘入门与实战

39+阅读 · 2017年10月5日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Gradient Regularized Newton Boosting Trees with Global Convergence

Arxiv

0+阅读 · 5月1日

Towards Universal Tabular Embeddings: A Benchmark Across Data Tasks

Arxiv

0+阅读 · 4月23日

mlr3torch: A Deep Learning Framework in R based on mlr3 and torch

Arxiv

0+阅读 · 4月20日

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Arxiv

0+阅读 · 4月17日

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Arxiv

0+阅读 · 4月16日

Auto-FP: An Experimental Study of Automated Feature Preprocessing for Tabular Data

Arxiv

0+阅读 · 4月15日

DeePAW: A universal machine learning model for orbital-free ab initio calculations

Arxiv

0+阅读 · 3月19日

The Role of Feature Interactions in Graph-based Tabular Deep Learning

Arxiv

0+阅读 · 3月9日

Closing the gap on tabular data with Fourier and Implicit Categorical Features

Arxiv

0+阅读 · 2月26日

Interactive Learning of Single-Index Models via Stochastic Gradient Descent

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

表格数据表示学习综述

表格数据表示学习综述

专知会员服务

18+阅读 · 2025年4月27日

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

专知会员服务

29+阅读 · 2025年1月27日

《深度表格学习综述》

《深度表格学习综述》

专知会员服务

44+阅读 · 2024年10月18日

GNN如何处理表格？NCKU等最新《图神经网络表格数据学习》综述，详述其技术体系和方向

GNN如何处理表格？NCKU等最新《图神经网络表格数据学习》综述，详述其技术体系和方向

专知会员服务

37+阅读 · 2024年1月6日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

基于表格数据的深度学习方法

基于表格数据的深度学习方法

专知会员服务

40+阅读 · 2021年10月19日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

R语言机器学习：xgboost的使用及其模型解释

R语言机器学习：xgboost的使用及其模型解释

R语言中文社区

11+阅读 · 2019年5月6日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

xgboost特征选择

xgboost特征选择

数据挖掘入门与实战

39+阅读 · 2017年10月5日

相关论文

Gradient Regularized Newton Boosting Trees with Global Convergence

Arxiv

0+阅读 · 5月1日

Towards Universal Tabular Embeddings: A Benchmark Across Data Tasks

Arxiv

0+阅读 · 4月23日

mlr3torch: A Deep Learning Framework in R based on mlr3 and torch

Arxiv

0+阅读 · 4月20日

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Arxiv

0+阅读 · 4月17日

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Arxiv

0+阅读 · 4月16日

Auto-FP: An Experimental Study of Automated Feature Preprocessing for Tabular Data

Arxiv

0+阅读 · 4月15日

DeePAW: A universal machine learning model for orbital-free ab initio calculations

Arxiv

0+阅读 · 3月19日

The Role of Feature Interactions in Graph-based Tabular Deep Learning

Arxiv

0+阅读 · 3月9日

Closing the gap on tabular data with Fourier and Implicit Categorical Features

Arxiv

0+阅读 · 2月26日

Interactive Learning of Single-Index Models via Stochastic Gradient Descent

Arxiv

0+阅读 · 2月19日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员