In recent years, there has been significant progress in the development of deep learning models over relational databases, including architectures based on heterogeneous graph neural networks (hetero-GNNs) and heterogeneous graph transformers. In effect, such architectures state how the database records and links (e.g., foreign-key references) translate into a large, complex numerical expression, involving numerous learnable parameters. This complexity makes it hard to explain, in human-understandable terms, how a model uses the available data to arrive at a given prediction. We present a novel framework for explaining machine-learning models over relational databases, where explanations are view definitions that highlight focused parts of the database that mostly contribute to the model's prediction. We establish such global abductive explanations by adapting the classic notion of determinacy by Nash, Segoufin, and Vianu (2010). In addition to tuning the tradeoff between determinacy and conciseness, the framework allows controlling the level of granularity by adopting different fragments of view definitions, such as ones highlighting whole columns, foreign keys between tables, relevant groups of tuples, and so on. We investigate the realization of the framework in the case of hetero-GNNs, and develop a model-specific approach via the notion of learnable masks. For comparison, we propose model-agnostic heuristic baselines and show that our approach is both more efficient and achieves better explanation quality in most cases. Our extensive empirical evaluation on the RelBench collection across diverse domains and record-level tasks demonstrates both the usefulness of our explanations and the efficiency of their generation.


翻译:近年来,基于关系数据库的深度学习模型取得了显著进展,包括基于异构图神经网络(hetero-GNNs)和异构图Transformer的架构。实际上,这类架构阐明了数据库记录与链接(如外键引用)如何转化为包含大量可学习参数的复杂数值表达式。这种复杂性使得难以用人类可理解的方式解释模型如何利用可用数据得出特定预测。我们提出了一种新颖的关系数据库机器学习模型解释框架,其解释采用视图定义的形式,突出显示对模型预测贡献最大的数据库核心部分。通过调整Nash、Segoufin和Vianu(2010)提出的经典确定性概念,我们建立了此类全局溯因解释。该框架不仅能够权衡确定性与简洁性,还可通过采用不同的视图定义片段(如突出显示整列、表间外键、相关元组群等)来控制粒度级别。我们研究了该框架在异构图神经网络中的实现,并通过可学习掩码的概念开发了模型特异性方法。作为对比,我们提出了模型无关的启发式基线方法,并证明在多数情况下我们的方法效率更高且解释质量更优。我们在RelBench数据集上进行了跨领域和记录级任务的广泛实证评估,结果既证明了所提解释方法的实用性,也验证了其生成过程的高效性。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员