In the development of learning systems, there is an ongoing need to reconcile the strong predictive performance offered by opaque black-box models with the level of transparency required for critical applications. This work introduces a methodological framework that combines spectral representation learning with transparent statistical modeling to construct a mixture of generalized additive models (GAMs). The approach utilizes random Fourier feature embeddings to uncover locally adaptive structures within the data. High-dimensional random feature representations are compressed via principal component analysis to derive a latent space that informs a Gaussian mixture model, which performs soft clustering to partition the input space into distinct regimes. Within each cluster, a local GAM captures nonlinear univariate effects through interpretable spline-based smoothers. Numerical experiments across diverse regression benchmarks demonstrate that the proposed method consistently improves upon classical global interpretable models by effectively modeling data heterogeneity. Furthermore, the mixture-of-GAMs framework achieves performance comparable to explainable boosting machine, random forest, and multilayer perceptron on certain tasks. Overall, this construction provides a principled approach for integrating representation learning with transparent statistical modeling.


翻译:在机器学习系统的发展中,始终存在一种持续的需求:既要兼顾不透明黑盒模型所提供的强大预测性能,又要满足关键应用场景所要求的透明度水平。本研究引入了一个方法学框架,该框架将谱表示学习与透明统计建模相结合,以构建一个广义可加模型(GAMs)的混合模型。该方法利用随机傅里叶特征嵌入来揭示数据内部的局部自适应结构。通过主成分分析对高维随机特征表示进行压缩,从而导出一个潜在空间,该空间用于引导高斯混合模型执行软聚类,将输入空间划分为不同的区域。在每个聚类内部,一个局部GAM通过基于可解释样条的光滑器来捕捉非线性单变量效应。在多种回归基准测试上的数值实验表明,所提出的方法通过有效建模数据异质性,持续改进了经典的全局可解释模型。此外,在某些任务上,这种混合GAMs框架的性能可与可解释提升机、随机森林以及多层感知机相媲美。总体而言,该构建为将表示学习与透明统计建模相结合提供了一种原则性的方法。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
可解释的机器学习模型和架构
专知会员服务
92+阅读 · 2023年9月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月15日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员