Association Rule Mining (ARM) aims to discover patterns between features in datasets in the form of propositional rules, supporting both knowledge discovery and interpretable machine learning in high-stakes decision-making. However, in high-dimensional settings, rule explosion and computational overhead render popular algorithmic approaches impractical without effective search space reduction, challenges that propagate to downstream tasks. Neurosymbolic methods, such as Aerial+, have recently been proposed to address the rule explosion in ARM. While they tackle the high dimensionality of the data, they also inherit limitations of neural networks, particularly reduced performance in low-data regimes. This paper makes three key contributions to association rule discovery in high-dimensional tabular data. First, we empirically show that Aerial+ scales one to two orders of magnitude better than state-of-the-art algorithmic and neurosymbolic baselines across five real-world datasets. Second, we introduce the novel problem of ARM in high-dimensional, low-data settings, such as gene expression data from the biomedicine domain with around 18k features and 50 samples. Third, we propose two fine-tuning approaches to Aerial+ using tabular foundation models. Our proposed approaches are shown to significantly improve rule quality on five real-world datasets, demonstrating their effectiveness in low-data, high-dimensional scenarios.


翻译:关联规则挖掘(ARM)旨在以命题规则的形式发现数据集中特征之间的模式,为高风险决策中的知识发现和可解释机器学习提供支持。然而,在高维场景下,规则爆炸和计算开销使得流行的算法方法在没有有效搜索空间缩减的情况下变得不切实际,这些挑战会进一步影响下游任务。近年来,诸如Aerial+等神经符号方法被提出以解决ARM中的规则爆炸问题。尽管这些方法处理了数据的高维性,但它们也继承了神经网络的局限性,尤其是在低数据量场景下性能下降。本文针对高维表格数据中的关联规则发现做出了三项关键贡献。首先,我们通过实证表明,在五个真实世界数据集上,Aerial+的扩展性比最先进的算法和神经符号基线方法提升了一到两个数量级。其次,我们提出了高维低数据量场景下的ARM新问题,例如生物医学领域中具有约1.8万个特征和50个样本的基因表达数据。第三,我们提出了两种基于表格基础模型对Aerial+进行微调的方法。实验表明,我们提出的方法在五个真实世界数据集上显著提升了规则质量,证明了其在低数据量、高维场景下的有效性。

0
下载
关闭预览

相关内容

基于大语言模型的知识图谱逻辑规则挖掘框架及应用
专知会员服务
27+阅读 · 2025年5月22日
面向多目标跟踪的数据关联方法研究综述
专知会员服务
26+阅读 · 2025年5月18日
【剑桥博士论文】小样本高维数据上的表格机器学习
专知会员服务
18+阅读 · 2025年4月9日
《利用多维数据挖掘为作战规划提供决策支持》
专知会员服务
49+阅读 · 2024年10月23日
【牛津大学博士论文】关系数据的学习和推理,243页pdf
专知会员服务
54+阅读 · 2022年11月16日
【NeurIPS 2021】基于次模优化的规则学习算法框架
专知会员服务
34+阅读 · 2021年11月30日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
清华178页深度报告:一文看懂AI数据挖掘
人工智能学家
10+阅读 · 2019年2月18日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员