Real-world tabular databases routinely combine continuous measurements and categorical records, yet missing entries are pervasive and can distort downstream analysis. We propose Statistical-Neural Interaction (SNI), an interpretable mixed-type imputation framework that couples correlation-derived statistical priors with neural feature attention through a Controllable-Prior Feature Attention (CPFA) module. CPFA learns head-wise prior-strength coefficients $\{λ_h\}$ that softly regularize attention toward the prior while allowing data-driven deviations when nonlinear patterns appear to be present in the data. Beyond imputation, SNI aggregates attention maps into a directed feature-dependency matrix that summarizes which variables the imputer relied on, without requiring post-hoc explainers. We evaluate SNI against six baselines (Mean/Mode, MICE, KNN, MissForest, GAIN, MIWAE) on six datasets spanning ICU monitoring, population surveys, socio-economic statistics, and engineering applications. Under MCAR/strict-MAR at 30\% missingness, SNI is generally competitive on continuous metrics but is often outperformed by accuracy-first baselines (MissForest, MIWAE) on categorical variables; in return, it provides intrinsic dependency diagnostics and explicit statistical-neural trade-off parameters. We additionally report MNAR stress tests (with a mask-aware variant) and discuss computational cost, limitations -- particularly for severely imbalanced categorical targets -- and deployment scenarios where interpretability may justify the trade-off.


翻译:现实世界中的表格数据库通常同时包含连续测量值和分类记录,然而缺失条目普遍存在且可能扭曲下游分析。本文提出统计-神经交互(SNI)框架——一种可解释的混合类型插补方法,通过可控先验特征注意力(CPFA)模块将相关性导出的统计先验与神经特征注意力机制相结合。CPFA模块学习头部先验强度系数$\{λ_h\}$,这些系数能够以柔性方式将注意力向先验方向正则化,同时当数据中出现非线性模式时允许数据驱动的偏差。除插补功能外,SNI将注意力图聚合为有向特征依赖矩阵,无需事后解释器即可总结插补器所依赖的变量关系。我们在涵盖ICU监护、人口调查、社会经济统计和工程应用的六个数据集上,将SNI与六种基线方法(均值/众数、MICE、KNN、MissForest、GAIN、MIWAE)进行比较。在30%缺失率的MCAR/严格MAR机制下,SNI在连续变量指标上具有普遍竞争力,但在分类变量上常被精度优先的基线方法(MissForest、MIWAE)超越;作为补偿,SNI提供内在的依赖关系诊断和显式的统计-神经权衡参数。我们额外报告了MNAR压力测试(使用掩码感知变体),并讨论了计算成本、局限性(尤其针对严重不平衡的分类目标)以及可解释性可证明其权衡合理性的部署场景。

0
下载
关闭预览

相关内容

【NeurIPS2021】神经网络表示的相似度和匹配
专知会员服务
27+阅读 · 2021年10月29日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
【AAAI专题】论文分享:以生物可塑性为核心的类脑脉冲神经网络
中国科学院自动化研究所
15+阅读 · 2018年1月23日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
【NeurIPS2021】神经网络表示的相似度和匹配
专知会员服务
27+阅读 · 2021年10月29日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员