Association Rule Mining (ARM) aims to discover patterns between features in datasets in the form of propositional rules, supporting both knowledge discovery and interpretable machine learning in high-stakes decision-making. However, in high-dimensional settings, rule explosion and computational overhead render popular algorithmic approaches impractical without effective search space reduction, challenges that propagate to downstream tasks. Neurosymbolic methods, such as Aerial+, have recently been proposed to address the rule explosion in ARM. While they tackle the high dimensionality of the data, they also inherit limitations of neural networks, particularly reduced performance in low-data regimes. This paper makes three key contributions to association rule discovery in high-dimensional tabular data. First, we empirically show that Aerial+ scales one to two orders of magnitude better than state-of-the-art algorithmic and neurosymbolic baselines across five real-world datasets. Second, we introduce the novel problem of ARM in high-dimensional, low-data settings, such as gene expression data from the biomedicine domain with around 18k features and 50 samples. Third, we propose two fine-tuning approaches to Aerial+ using tabular foundation models. Our proposed approaches are shown to significantly improve rule quality on five real-world datasets, demonstrating their effectiveness in low-data, high-dimensional scenarios.


翻译:关联规则挖掘(ARM)旨在以命题规则的形式发现数据集中特征之间的模式,为高风险决策中的知识发现和可解释机器学习提供支持。然而,在高维场景下,规则爆炸和计算开销使得流行的算法方法在没有有效搜索空间缩减的情况下变得不切实际,这些挑战会进一步影响下游任务。近年来,诸如Aerial+等神经符号方法被提出以解决ARM中的规则爆炸问题。尽管这些方法处理了数据的高维性,但它们也继承了神经网络的局限性,尤其是在低数据量场景下性能下降。本文针对高维表格数据中的关联规则发现做出了三项关键贡献。首先,我们通过实证表明,在五个真实世界数据集上,Aerial+的扩展性比最先进的算法和神经符号基线方法提升了一到两个数量级。其次,我们提出了高维低数据量场景下的ARM新问题,例如生物医学领域中具有约1.8万个特征和50个样本的基因表达数据。第三,我们提出了两种基于表格基础模型对Aerial+进行微调的方法。实验表明,我们提出的方法在五个真实世界数据集上显著提升了规则质量,证明了其在低数据量、高维场景下的有效性。

0
下载
关闭预览

相关内容

基于大语言模型的知识图谱逻辑规则挖掘框架及应用
专知会员服务
27+阅读 · 2025年5月22日
面向多目标跟踪的数据关联方法研究综述
专知会员服务
24+阅读 · 2025年5月18日
【剑桥博士论文】小样本高维数据上的表格机器学习
专知会员服务
18+阅读 · 2025年4月9日
《利用多维数据挖掘为作战规划提供决策支持》
专知会员服务
49+阅读 · 2024年10月23日
【牛津大学博士论文】关系数据的学习和推理,243页pdf
专知会员服务
54+阅读 · 2022年11月16日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
34+阅读 · 2021年11月30日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员