Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features - 专知论文

会员服务 ·

0

级联 · 表格数据 · 混合 · 离散 · 流匹配 ·

Cascaded Flow Matching for Heterogeneous Tabular Data with Mixed-Type Features

翻译：面向混合类型特征的异质性表格数据的级联流匹配

Markus Mueller,Kathrin Gruber,Dennis Fok

from arxiv, published at ICML 2026

Advances in generative modeling have recently been adapted to tabular data containing discrete and continuous features. However, generating mixed-type features that combine discrete states with an otherwise continuous distribution in a single feature remains challenging. We advance the state-of-the-art in diffusion models for tabular data with a cascaded approach. We first generate a low-resolution version of a tabular data row, that is, the collection of the purely categorical features and a coarse categorical representation of numerical features. Next, this information is leveraged in the high-resolution flow matching model via a novel guided conditional probability path and data-dependent coupling. The low-resolution representation of numerical features explicitly accounts for discrete outcomes, such as missing or inflated values, and therewith enables a more faithful generation of mixed-type features. We formally prove that this cascade tightens the transport cost bound. The results indicate that our model generates significantly more realistic samples and captures distributional details more accurately, for example, the detection score improves by 51.9\%. Code is available at https://github.com/muellermarkus/tabcascade.

翻译：生成式建模的最新进展已适用于包含离散和连续特征的表格数据。然而，生成兼具离散状态与连续分布的混合类型特征仍具挑战性。我们提出一种级联方法，推进了表格数据扩散模型的前沿技术。首先，生成表格数据行的低分辨率版本，即纯类别特征集合与数值特征的粗粒度类别化表示。随后，通过一种基于新型引导条件概率路径和数据依赖耦合机制的高分辨率流匹配模型，利用该信息进行建模。数值特征的低分辨率表示显式处理了缺失值或膨胀值等离散结果，从而更忠实地生成混合类型特征。本文从理论上证明，该级联方法可压缩传输代价边界。结果表明，我们的模型能够生成显著更真实的样本，并更精确地捕捉分布细节——例如，检测得分提升了51.9%。代码开源于https://github.com/muellermarkus/tabcascade。

0

相关内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

专知会员服务

12+阅读 · 2025年5月9日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

专知会员服务

48+阅读 · 2023年3月17日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching

Arxiv

0+阅读 · 4月15日

Flow Map Language Models: One-step Language Modeling via Continuous Denoising

Arxiv

0+阅读 · 4月6日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

From Moments to Models: Graphon-Mixture Learning for Mixup and Contrastive Learning

Arxiv

0+阅读 · 3月31日

A Graded Modal Dependent Type Theory with Erasure, Formalized

Arxiv

0+阅读 · 3月31日

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

Arxiv

0+阅读 · 3月29日

Continuous Diffusion for Mixed-Type Tabular Data

Arxiv

0+阅读 · 3月26日

Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation

Arxiv

0+阅读 · 3月25日

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Arxiv

0+阅读 · 3月25日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

【CVPR2025】并非所有参数都重要：通过参数掩码提升扩散模型的生成能力

专知会员服务

12+阅读 · 2025年5月9日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

专知会员服务

48+阅读 · 2023年3月17日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

非平衡数据集 focal loss 多类分类

非平衡数据集 focal loss 多类分类

AI研习社

33+阅读 · 2019年4月23日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching

Arxiv

0+阅读 · 4月15日

Flow Map Language Models: One-step Language Modeling via Continuous Denoising

Arxiv

0+阅读 · 4月6日

Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models

Arxiv

0+阅读 · 4月5日

From Moments to Models: Graphon-Mixture Learning for Mixup and Contrastive Learning

Arxiv

0+阅读 · 3月31日

A Graded Modal Dependent Type Theory with Erasure, Formalized

Arxiv

0+阅读 · 3月31日

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

Arxiv

0+阅读 · 3月29日

Continuous Diffusion for Mixed-Type Tabular Data

Arxiv

0+阅读 · 3月26日

Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation

Arxiv

0+阅读 · 3月25日

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Arxiv

0+阅读 · 3月25日

Deep Model Fusion: A Survey

Arxiv

14+阅读 · 2023年9月27日

相关基金

基于稀疏性与分片常数空间的网格简化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

社交网络级联数据流异常检测模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员