Closing the gap on tabular data with Fourier and Implicit Categorical Features - 专知论文

会员服务 ·

0

表格数据 · 类别 · 类别特征 · 平滑 · 神经网络 ·

Closing the gap on tabular data with Fourier and Implicit Categorical Features

翻译：基于傅里叶与隐式类别特征缩小表格数据上的性能差距

Marius Dragoi,Florin Gogianu,Elena Burceanu

While Deep Learning has demonstrated impressive results in applications on various data types, it continues to lag behind tree-based methods when applied to tabular data, often referred to as the last "unconquered castle" for neural networks. We hypothesize that a significant advantage of tree-based methods lies in their intrinsic capability to model and exploit non-linear interactions induced by features with categorical characteristics. In contrast, neural-based methods exhibit biases toward uniform numerical processing of features and smooth solutions, making it challenging for them to effectively leverage such patterns. We address this performance gap by using statistical-based feature processing techniques to identify features that are strongly correlated with the target once discretized. We further mitigate the bias of deep models for overly-smooth solutions, a bias that does not align with the inherent properties of the data, using Learned Fourier. We show that our proposed feature preprocessing significantly boosts the performance of deep learning models and enables them to achieve a performance that closely matches or surpasses XGBoost on a comprehensive tabular data benchmark.

翻译：尽管深度学习在多种数据类型应用中展现出令人瞩目的成果，但在处理表格数据时，其性能仍落后于基于树的方法，这一领域常被视为神经网络尚未攻克的“最后堡垒”。我们假设，基于树的方法的一个显著优势在于其内在能够建模并利用具有类别特征属性所诱导的非线性交互作用。相比之下，基于神经网络的方法则表现出对特征的均匀数值处理和平滑解的偏好，这使得它们难以有效利用此类模式。我们通过采用基于统计的特征处理技术来识别那些在离散化后与目标变量强相关的特征，以应对这一性能差距。进一步地，我们利用学习型傅里叶方法来缓解深度模型对过度平滑解的偏好——这种偏好与数据的内在特性并不一致。实验表明，我们所提出的特征预处理方法显著提升了深度学习模型的性能，使其在一个全面的表格数据基准测试中能够达到与XGBoost相媲美甚至超越的性能。

0

相关内容

表格数据

【博士论文】在低维和高维空间中分析、建模和转换潜在表征

【博士论文】在低维和高维空间中分析、建模和转换潜在表征

专知会员服务

18+阅读 · 2025年10月26日

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

专知会员服务

20+阅读 · 2025年10月14日

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

专知会员服务

24+阅读 · 2025年8月23日

表格数据表示学习综述

表格数据表示学习综述

专知会员服务

18+阅读 · 2025年4月27日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

【2023新书】现代深度学习表格数据处理:常见建模问题的新方法，870页

【2023新书】现代深度学习表格数据处理:常见建模问题的新方法，870页

专知会员服务

74+阅读 · 2023年1月14日

《从生理信号对人类情感状态分类的表格神经网络方法评估》美陆军研究实验室2022最新23页报告

《从生理信号对人类情感状态分类的表格神经网络方法评估》美陆军研究实验室2022最新23页报告

专知会员服务

34+阅读 · 2022年12月3日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

图数据表示学习综述论文

图数据表示学习综述论文

专知

52+阅读 · 2019年6月10日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Auto-FP: An Experimental Study of Automated Feature Preprocessing for Tabular Data

Arxiv

0+阅读 · 4月15日

xRFM: Accurate, scalable, and interpretable feature learning models for tabular data

Arxiv

0+阅读 · 4月5日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

The Role of Feature Interactions in Graph-based Tabular Deep Learning

Arxiv

0+阅读 · 3月9日

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Optimizing Data Augmentation through Bayesian Model Selection

Arxiv

0+阅读 · 3月3日

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

14+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

15+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

11+阅读 · 7月18日

相关VIP内容

【博士论文】在低维和高维空间中分析、建模和转换潜在表征

【博士论文】在低维和高维空间中分析、建模和转换潜在表征

专知会员服务

18+阅读 · 2025年10月26日

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

【博士论文】在低维与高维空间中对潜在表征的分析、建模与变换

专知会员服务

20+阅读 · 2025年10月14日

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

专知会员服务

24+阅读 · 2025年8月23日

表格数据表示学习综述

表格数据表示学习综述

专知会员服务

18+阅读 · 2025年4月27日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

【2023新书】现代深度学习表格数据处理:常见建模问题的新方法，870页

【2023新书】现代深度学习表格数据处理:常见建模问题的新方法，870页

专知会员服务

74+阅读 · 2023年1月14日

《从生理信号对人类情感状态分类的表格神经网络方法评估》美陆军研究实验室2022最新23页报告

《从生理信号对人类情感状态分类的表格神经网络方法评估》美陆军研究实验室2022最新23页报告

专知会员服务

34+阅读 · 2022年12月3日

深度神经网络模型的个体差异，Individual differences among deep neural network models

深度神经网络模型的个体差异，Individual differences among deep neural network models

专知会员服务

10+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

图数据表示学习综述论文

图数据表示学习综述论文

专知

52+阅读 · 2019年6月10日

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

小样本如何进行深度学习？西北工夏勇教授这一份54页《医学影像小数据深度学习》PPT为你讲解

GAN生成式对抗网络

23+阅读 · 2018年12月2日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Auto-FP: An Experimental Study of Automated Feature Preprocessing for Tabular Data

Arxiv

0+阅读 · 4月15日

xRFM: Accurate, scalable, and interpretable feature learning models for tabular data

Arxiv

0+阅读 · 4月5日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

The Role of Feature Interactions in Graph-based Tabular Deep Learning

Arxiv

0+阅读 · 3月9日

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Optimizing Data Augmentation through Bayesian Model Selection

Arxiv

0+阅读 · 3月3日

Assessment of Spatio-Temporal Predictors in the Presence of Missing and Heterogeneous Data

Arxiv

0+阅读 · 2月27日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员