Tabular data underpins most high-value prediction problems in science and industry, and TabPFN has driven the foundation model revolution for this modality. Designed with feedback from our users, TabPFN-3 builds on this foundation to scale state-of-the-art performance to datasets with 1M training rows and substantially reduce training and inference time. Pretrained exclusively on synthetic data from our prior, TabPFN-3 dramatically pushes the frontier of tabular prediction and brings substantial gains on time series, relational, and tabular-text data. On the standard tabular benchmark TabArena, a forward pass of TabPFN-3 outperforms all other models, including tuned and ensembled baselines, by a significant margin, and pareto-dominates the speed/performance frontier. On more diverse datasets, TabPFN-3 ranks first on datasets with many classes, and beats 8-hour-tuned gradient-boosted-tree baselines on datasets up to 1M training rows and 200 features. TabPFN-3 introduces test-time compute scaling to tabular foundation models. Our API offering TabPFN-3-Plus (Thinking) exploits this to beat all non-TabPFN models by over 200 Elo on TabArena, rising to 420 Elo on the largest data subset, and outperforms AutoGluon 1.5 extreme while being 10x faster, without using LLMs, real data, internet search or any other model besides TabPFN. TabPFN-3 extends the capabilities of our models, enabling SOTA prediction on relational data (new SOTA foundation model on RelBenchV1) and tabular-text data (SOTA on TabSTAR via TabPFN-3-Plus); and improves existing integrations: a specialized checkpoint, TabPFN-TS-3, ranks 2nd on the time-series benchmark fev-bench, and SHAP-value computation is up to 120x faster. TabPFN-3 achieves this performance while being up to 20x faster than TabPFN-2.5. In addition, a reduced KV cache and row-chunking scale to 1M rows on one H100 with fast inference speed.


翻译:表格数据支撑了科学和工业领域中大多数高价值预测问题,而TabPFN已推动了这一模态的基础模型革命。基于用户反馈设计的TabPFN-3,在此基础之上将最先进的性能扩展至100万训练样本的数据集,并显著缩短了训练与推理时间。完全基于我们先验知识生成的合成数据进行预训练的TabPFN-3,极大地推进了表格预测的边界,并在时间序列、关系型及表格-文本数据上取得了实质性提升。在标准表格基准TabArena上,TabPFN-3的单次前向传播以显著优势优于所有其他模型(包括经过调优和集成的基线),并帕累托主导了速度/性能前沿。在更多样化的数据集上,TabPFN-3在多类别数据集中排名第一,并击败了在100万训练样本和200个特征数据上经过8小时调优的梯度提升树基线。TabPFN-3首次将测试时计算缩放引入表格基础模型。我们提供的API产品TabPFN-3-Plus(思考版)利用此特性,在TabArena上超越所有非TabPFN模型超过200 Elo分,在最大数据子集上达到420 Elo分,并以10倍速度超越AutoGluon 1.5 extreme,且无需使用大语言模型、真实数据、互联网搜索或除TabPFN之外的任何其他模型。TabPFN-3扩展了模型能力,实现了关系型数据(在RelBenchV1上创下新的基础模型SOTA)和表格-文本数据(通过TabPFN-3-Plus在TabSTAR上达到SOTA)的SOTA预测;并改进了现有集成:专用检查点TabPFN-TS-3在时间序列基准fev-bench上排名第二,而SHAP值计算速度提升高达120倍。TabPFN-3在实现此性能的同时,速度比TabPFN-2.5快20倍。此外,通过缩减KV缓存和行分块技术,可在单张H100上以快速推理速度扩展至100万行数据。

0
下载
关闭预览

相关内容

《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
《Llama 3大模型》技术报告中英文版,95页pdf
专知会员服务
107+阅读 · 2024年8月2日
《TextCycleGAN 技术报告》
专知会员服务
34+阅读 · 2023年5月4日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
VAE、GAN、Info-GAN:全解深度学习三大生成模型
数据派THU
20+阅读 · 2017年9月23日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月15日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 6月5日
Arxiv
0+阅读 · 6月4日
Arxiv
0+阅读 · 5月18日
Arxiv
18+阅读 · 2024年12月27日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
《Llama 3大模型》技术报告中英文版,95页pdf
专知会员服务
107+阅读 · 2024年8月2日
《TextCycleGAN 技术报告》
专知会员服务
34+阅读 · 2023年5月4日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员