Tabular data is one of the most ubiquitous sources of information worldwide, spanning a wide variety of domains. This inherent heterogeneity has slowed the development of Tabular Foundation Models (TFMs) capable of fast generalization to unseen datasets. In-Context Learning (ICL) has recently emerged as a promising solution for TFMs, enabling dynamic adaptation to new tasks without additional tuning. While many studies have attempted to re-purpose large language models for tabular ICL, they have had limited success, so recent works have focused on developing tabular-specific foundation models. In this work, we propose an approach to combine ICL-based retrieval with self supervised learning to train tabular foundation models. We also investigate the utility of real vs. synthetic data for model pre-training, and show that real data can contain useful signal not easily captured in synthetic training. Specifically, we show that incorporating real data during the pre-training phase can lead to significantly faster training and better downstream generalization to unseen data. Our resulting model, TabDPT, achieves strong performance on both regression (CTR23) and classification (CC18) benchmarks. Importantly, we also demonstrate that with our pre-training procedure, scaling both model and data size leads to consistent performance improvements that follow power laws. This echoes scaling laws in LLMs and other foundation models, and suggests that large-scale TFMs can be achievable. We open-source our full pipeline: inference code including trained model weights can be found at github.com/layer6ai-labs/TabDPT-inference, and the training code to reproduce experiments can be found at github.com/layer6ai-labs/TabDPT-training.


翻译:表格数据是全球范围内最普遍的信息来源之一,涵盖众多领域。其固有的异质性阻碍了能够快速泛化至未见数据集的表格基础模型的发展。情境学习作为一种有前景的解决方案近期兴起,使TFM能够在不额外调优的情况下动态适应新任务。尽管许多研究尝试将大语言模型重新用于表格ICL,但成效有限,因此近期工作聚焦于开发表格专用基础模型。本研究提出一种结合基于ICL的检索与自监督学习来训练表格基础模型的方法。我们同时探究了真实数据与合成数据在模型预训练中的效用,证明真实数据可能包含合成训练难以捕获的有效信号。具体而言,我们发现预训练阶段引入真实数据可显著加速训练过程,并提升对未见数据的下游泛化能力。我们最终提出的模型TabDPT在回归(CTR23)与分类(CC18)基准测试中均表现出色。重要的是,我们还证明通过我们的预训练流程,模型规模与数据规模的同步扩增能带来遵循幂律关系的持续性能提升。这与LLM及其他基础模型中的缩放定律相呼应,表明大规模TFM具备实现可行性。我们已开源完整流程:包含训练模型权重的推理代码详见github.com/layer6ai-labs/TabDPT-inference,复现实验的训练代码详见github.com/layer6ai-labs/TabDPT-training。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
《深度表格学习综述》
专知会员服务
43+阅读 · 2024年10月18日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
《深度表格学习综述》
专知会员服务
43+阅读 · 2024年10月18日
【NeurIPS2024】TableRAG:基于语言模型的百万标记表格理解
专知会员服务
37+阅读 · 2024年10月8日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员