The long-standing dominance of gradient-boosted decision trees for tabular data has recently been challenged by in-context learning tabular foundation models. In-context learning methods fit and predict in one forward pass without parameter updates by leveraging the training data as context for predicting on query test points. While recent tabular foundation models achieve state-of-the-art performance, their transformer architecture based on the attention mechanism has quadratic complexity regarding dataset size, which in turn increases the overhead on training and inference time, and limits the capacity of the models to handle large-scale datasets. In this work, we propose TACO, an end-to-end tabular compression model that compresses the training dataset in a latent space. We test our method on the TabArena benchmark, where our proposed method is up to 94x faster in inference time, while consuming up to 97\% less memory compared to the state-of-the-art tabular transformer architecture, all while retaining performance without significant degradation. Lastly, our method not only scales better with increased dataset sizes, but it also achieves better performance compared to other baselines.


翻译:长期以来,梯度提升决策树在表格数据领域占据主导地位,但近期基于上下文学习的表格基础模型对此提出了挑战。上下文学习方法通过将训练数据作为预测查询测试点的上下文,无需参数更新即可在前向传播过程中同时完成拟合与预测。尽管当前先进的表格基础模型实现了最先进的性能,但其基于注意力机制的Transformer架构在数据集规模上具有二次复杂度,这增加了训练和推理时间的开销,并限制了模型处理大规模数据集的能力。本研究提出TACO——一种端到端的表格压缩模型,可在潜在空间中对训练数据集进行压缩。我们在TabArena基准测试中验证了所提方法,结果表明:与最先进的表格Transformer架构相比,我们的方法推理速度最高提升94倍,内存消耗最多降低97%,同时性能未出现显著下降。最后,我们的方法不仅随着数据集规模扩大展现出更优的扩展性,其性能也优于其他基线模型。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【博士论文】基于多模态基础模型的上下文学习
专知会员服务
22+阅读 · 2025年12月17日
【斯坦福博士论文】基础模型后训练的新方法
专知会员服务
24+阅读 · 2025年11月8日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
专知会员服务
117+阅读 · 2020年8月22日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
26+阅读 · 2020年8月19日
常用的模型集成方法介绍:bagging、boosting 、stacking
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】基于多模态基础模型的上下文学习
专知会员服务
22+阅读 · 2025年12月17日
【斯坦福博士论文】基础模型后训练的新方法
专知会员服务
24+阅读 · 2025年11月8日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
基于表格数据的深度学习方法
专知会员服务
40+阅读 · 2021年10月19日
专知会员服务
117+阅读 · 2020年8月22日
最新《文本深度学习模型压缩》综述论文,21页pdf
专知会员服务
26+阅读 · 2020年8月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员