因果数据增强用于表格基础模型的鲁棒微调 (Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models) - 专知论文

会员服务 ·

0

微调 · 鲁棒 · 结构 · 数据增强 · 早停 ·

Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models

翻译：因果数据增强用于表格基础模型的鲁棒微调

Magnus Bühler,Lennart Purucker,Frank Hutter

from arxiv, Accepted for oral presentation at the EurIPS 2025 Workshop on AI for Tabular Data (Copenhagen)

Fine-tuning tabular foundation models (TFMs) under data scarcity is challenging, as early stopping on even scarcer validation data often fails to capture true generalization performance. We propose CausalMixFT, a method that enhances fine-tuning robustness and downstream performance by generating structurally consistent synthetic samples using Structural Causal Models (SCMs) fitted on the target dataset. This approach augments limited real data with causally informed synthetic examples, preserving feature dependencies while expanding training diversity. Evaluated across 33 classification datasets from TabArena and over 2300 fine-tuning runs, our CausalMixFT method consistently improves median normalized ROC-AUC from 0.10 (standard fine-tuning) to 0.12, outperforming purely statistical generators such as CTGAN (-0.01), TabEBM (-0.04), and TableAugment (-0.09). Moreover, it narrows the median validation-test performance correlation gap from 0.67 to 0.30, enabling more reliable validation-based early stopping, a key step toward improving fine-tuning stability under data scarcity. These results demonstrate that incorporating causal structure into data augmentation provides an effective and principled route to fine-tuning tabular foundation models in low-data regimes.

翻译：在数据稀缺条件下微调表格基础模型（TFMs）具有挑战性，因为即使在更稀缺的验证数据上进行早停，也常常无法捕捉到真实的泛化性能。我们提出了CausalMixFT方法，该方法通过使用在目标数据集上拟合的结构因果模型（SCMs）生成结构一致的合成样本，从而增强微调的鲁棒性和下游性能。此方法利用因果信息合成的示例来增强有限的真实数据，在保持特征依赖关系的同时扩展了训练多样性。通过在TabArena的33个分类数据集和超过2300次微调运行上的评估，我们的CausalMixFT方法将归一化ROC-AUC中位数从0.10（标准微调）持续提升至0.12，优于纯统计生成器，如CTGAN（-0.01）、TabEBM（-0.04）和TableAugment（-0.09）。此外，它将验证集-测试集性能相关性差距的中位数从0.67缩小至0.30，从而实现了更可靠的基于验证的早停，这是改善数据稀缺条件下微调稳定性的关键一步。这些结果表明，将因果结构纳入数据增强，为在低数据条件下微调表格基础模型提供了一条有效且基于原理的途径。

0

相关内容

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

专知会员服务

15+阅读 · 2025年5月14日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

《面向基础模型的高效参数微调》综述

《面向基础模型的高效参数微调》综述

专知会员服务

33+阅读 · 2025年1月24日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

针对预训练视觉模型的参数高效微调

针对预训练视觉模型的参数高效微调

专知会员服务

22+阅读 · 2024年2月7日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

基于分数阶微积分理论的粘弹性本构模型参数反演及应用

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

TRIM: Token-wise Attention-Derived Saliency for Data-Efficient Instruction Tuning

Arxiv

0+阅读 · 1月28日

GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs

Arxiv

0+阅读 · 1月27日

Complexity-aware fine-tuning

Arxiv

0+阅读 · 1月21日

TabDPT: Scaling Tabular Foundation Models on Real Data

Arxiv

0+阅读 · 1月17日

Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation

Arxiv

0+阅读 · 1月16日

Exploring Fine-Tuning for Tabular Foundation Models

Arxiv

0+阅读 · 1月14日

An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

Arxiv

0+阅读 · 1月8日

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

Arxiv

0+阅读 · 1月8日

Efficiently Estimating Data Efficiency for Language Model Fine-tuning

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

【ICML2025】用于图神经网络的LLM增强方法：因果机制识别视角下的分析

专知会员服务

15+阅读 · 2025年5月14日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

《面向基础模型的高效参数微调》综述

《面向基础模型的高效参数微调》综述

专知会员服务

33+阅读 · 2025年1月24日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

针对预训练视觉模型的参数高效微调

针对预训练视觉模型的参数高效微调

专知会员服务

22+阅读 · 2024年2月7日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

深度生成模型如何因果化? 新南威尔士大学等《因果深度生成模型》综述，详述GAN、VAE和扩散模型的因果化

专知会员服务

45+阅读 · 2023年1月31日

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

什么是因果机器学习？UCL&牛津大学最新《因果机器学习》书册，165页pdf阐述因果机器学习体系

专知会员服务

291+阅读 · 2022年7月1日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

基于深度元学习的因果推断新方法

基于深度元学习的因果推断新方法

图与推荐

12+阅读 · 2020年7月21日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

每日论文 | 深度卷积高斯过程；用多任务弱监督训练复杂模型；在时序数据中发现新连接类型

论智

12+阅读 · 2018年10月10日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

相关论文

InstructDiff: Domain-Adaptive Data Selection via Differential Entropy for Efficient LLM Fine-Tuning

Arxiv

0+阅读 · 1月30日

TRIM: Token-wise Attention-Derived Saliency for Data-Efficient Instruction Tuning

Arxiv

0+阅读 · 1月28日

GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs

Arxiv

0+阅读 · 1月27日

Complexity-aware fine-tuning

Arxiv

0+阅读 · 1月21日

TabDPT: Scaling Tabular Foundation Models on Real Data

Arxiv

0+阅读 · 1月17日

Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation

Arxiv

0+阅读 · 1月16日

Exploring Fine-Tuning for Tabular Foundation Models

Arxiv

0+阅读 · 1月14日

An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

Arxiv

0+阅读 · 1月8日

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

Arxiv

0+阅读 · 1月8日

Efficiently Estimating Data Efficiency for Language Model Fine-tuning

Arxiv

0+阅读 · 2025年12月31日

相关基金

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

基于分数阶微积分理论的粘弹性本构模型参数反演及应用

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员