Tabular data is the primary data format in industrial relational databases, underpinning modern data analytics and decision-making. However, the increasing scale of tabular data poses significant computational and storage challenges to learning-based analytical systems. This highlights the need for data-efficient learning, which enables effective model training and generalization using substantially fewer samples. Dataset condensation (DC) has emerged as a promising data-centric paradigm that synthesizes small yet informative datasets to preserve data utility while reducing storage and training costs. However, existing DC methods are computationally intensive due to reliance on complex gradient-based optimization. Moreover, they often overlook key characteristics of tabular data, such as heterogeneous features and class imbalance. To address these limitations, we introduce C$^{2}$TC (Class-Adaptive Clustering for Tabular Condensation), the first training-free tabular dataset condensation framework that jointly optimizes class allocation and feature representation, enabling efficient and scalable condensation. Specifically, we reformulate the dataset condensation objective into a novel class-adaptive cluster allocation problem (CCAP), which eliminates costly training and integrates adaptive label allocation to handle class imbalance. To solve the NP-hard CCAP, we develop HFILS, a heuristic local search that alternates between soft allocation and class-wise clustering to efficiently obtain high-quality solutions. Moreover, a hybrid categorical feature encoding (HCFE) is proposed for semantics-preserving clustering of heterogeneous discrete attributes. Extensive experiments on 10 real-world datasets demonstrate that C$^{2}$TC improves efficiency by at least 2 orders of magnitude over state-of-the-art baselines, while achieving superior downstream performance.


翻译:表格数据是工业关系数据库中的主要数据格式,支撑着现代数据分析和决策制定。然而,表格数据规模的不断增长给基于学习的分析系统带来了巨大的计算和存储挑战。这凸显了对数据高效学习的需求,即使用显著更少的样本实现有效的模型训练和泛化。数据集浓缩作为一种以数据为中心的前沿范式应运而生,它通过合成小型但信息丰富的数据集来保持数据效用,同时降低存储和训练成本。然而,现有数据集浓缩方法因依赖复杂的基于梯度的优化而计算密集。此外,它们常常忽视表格数据的关键特征,例如异构特征和类别不平衡。为应对这些局限性,我们提出了C$^{2}$TC(面向表格浓缩的类别自适应聚类),这是首个无训练的表格数据集浓缩框架,它联合优化类别分配与特征表示,从而实现高效且可扩展的浓缩。具体而言,我们将数据集浓缩目标重新表述为一个新颖的类别自适应聚类分配问题,该问题消除了成本高昂的训练过程,并集成了自适应标签分配以处理类别不平衡。为解决这一NP难问题,我们开发了HFILS,一种启发式局部搜索方法,通过在软分配和类内聚类之间交替进行,以高效获得高质量解。此外,我们提出了一种混合类别特征编码方法,用于对异构离散属性进行语义保持的聚类。在10个真实世界数据集上的大量实验表明,C$^{2}$TC相较于最先进的基线方法,效率提升至少2个数量级,同时实现了更优的下游性能。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【剑桥博士论文】小样本高维数据上的表格机器学习
专知会员服务
18+阅读 · 2025年4月9日
《深度表格学习综述》
专知会员服务
44+阅读 · 2024年10月18日
表格数据的语言建模:基础、技术与演变综述
专知会员服务
39+阅读 · 2024年8月23日
表格识别技术研究进展
专知会员服务
38+阅读 · 2022年7月4日
专知会员服务
25+阅读 · 2021年8月22日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
领域应用 | 到底什么时候使用图数据库?
开放知识图谱
16+阅读 · 2019年4月19日
AmpliGraph:知识图谱表示学习工具包
专知
40+阅读 · 2019年4月6日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
最新内容
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 25分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 21分钟前
全球高超音速武器最新发展趋势
专知会员服务
0+阅读 · 50分钟前
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员