Continuous Diffusion for Mixed-Type Tabular Data - 专知论文

会员服务 ·

0

混合 · 表格数据 · 噪声 · 异质 · 异质性 ·

Continuous Diffusion for Mixed-Type Tabular Data

翻译：连续扩散模型在混合类型表格数据中的应用

Markus Mueller,Kathrin Gruber,Dennis Fok

from arxiv, published at ICLR 2025

Score-based generative models, commonly referred to as diffusion models, have proven to be successful at generating text and image data. However, their adaptation to mixed-type tabular data remains underexplored. In this work, we propose CDTD, a Continuous Diffusion model for mixed-type Tabular Data. CDTD is based on a novel combination of score matching and score interpolation to enforce a unified continuous noise distribution for both continuous and categorical features. We explicitly acknowledge the necessity of homogenizing distinct data types by relying on model-specific loss calibration and initialization schemes. To further address the high heterogeneity in mixed-type tabular data, we introduce adaptive feature- or type-specific noise schedules. These ensure balanced generative performance across features and optimize the allocation of model capacity across features and diffusion time. Our experimental results show that CDTD consistently outperforms state-of-the-art benchmark models, captures feature correlations exceptionally well, and that heterogeneity in the noise schedule design boosts sample quality. Replication code is available at https://github.com/muellermarkus/cdtd.

翻译：基于分数的生成模型（通常称为扩散模型）已成功应用于文本和图像数据的生成。然而，其在混合类型表格数据上的适应性仍待深入探索。本研究提出CDTD，一种针对混合类型表格数据的连续扩散模型。CDTD基于分数匹配与分数插值的新颖组合，通过对连续特征和分类特征实施统一的连续噪声分布来实现。我们通过模型特定的损失校准与初始化方案，明确认识到统一不同数据类型的必要性。为进一步应对混合类型表格数据中的高度异质性，我们引入了自适应特征或类型特定的噪声调度机制。这些机制确保了跨特征的平衡生成性能，并优化了模型容量在特征与扩散时间上的分配。实验结果表明，CDTD始终优于最先进的基准模型，能出色捕捉特征相关性，且噪声调度设计中的异质性显著提升了样本质量。复现代码可在https://github.com/muellermarkus/cdtd获取。

0

相关内容

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

23+阅读 · 2025年10月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

高效扩散模型综述

高效扩散模型综述

专知会员服务

35+阅读 · 2025年2月1日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

扩散模型与表示学习：综述

扩散模型与表示学习：综述

专知会员服务

49+阅读 · 2024年7月2日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

专知会员服务

48+阅读 · 2023年3月17日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

计算机视觉life

13+阅读 · 2019年7月25日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

Discrete State Diffusion Models: A Sample Complexity Perspective

Arxiv

0+阅读 · 2月14日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

Algorithm- and Data-Dependent Generalization Bounds for Diffusion Models

Arxiv

0+阅读 · 2月9日

Sparse-to-Sparse Training of Diffusion Models

Arxiv

0+阅读 · 2月4日

Flow Matching for Tabular Data Synthesis

Arxiv

0+阅读 · 2月4日

Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

Arxiv

0+阅读 · 1月30日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

Diffusion Representations for Fine-Grained Image Classification: A Marine Plankton Case Study

Arxiv

0+阅读 · 1月19日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

0+阅读 · 11分钟前

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

0+阅读 · 13分钟前

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

0+阅读 · 15分钟前

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

2+阅读 · 38分钟前

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

3+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

2+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

2+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

2+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

2+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

1+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

23+阅读 · 2025年10月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

高效扩散模型综述

高效扩散模型综述

专知会员服务

35+阅读 · 2025年2月1日

《扩散模型及其应用》最新综述

《扩散模型及其应用》最新综述

专知会员服务

50+阅读 · 2024年8月21日

扩散模型与表示学习：综述

扩散模型与表示学习：综述

专知会员服务

49+阅读 · 2024年7月2日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

专知会员服务

48+阅读 · 2023年3月17日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

关于GANs在医学图像领域应用的总结

关于GANs在医学图像领域应用的总结

计算机视觉life

13+阅读 · 2019年7月25日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

相关论文

Discrete State Diffusion Models: A Sample Complexity Perspective

Arxiv

0+阅读 · 2月14日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

Algorithm- and Data-Dependent Generalization Bounds for Diffusion Models

Arxiv

0+阅读 · 2月9日

Sparse-to-Sparse Training of Diffusion Models

Arxiv

0+阅读 · 2月4日

Flow Matching for Tabular Data Synthesis

Arxiv

0+阅读 · 2月4日

Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

Arxiv

0+阅读 · 1月30日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

Diffusion Representations for Fine-Grained Image Classification: A Marine Plankton Case Study

Arxiv

0+阅读 · 1月19日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

相关基金

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

一类带对流项的反应扩散系统的定性分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

半参数面板数据交互固定效应模型的理论与应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员