Feature-importance methods show promise in transforming machine learning models from predictive engines into tools for scientific discovery. However, due to data sampling and algorithmic stochasticity, expressive models can be unstable, leading to inaccurate variable importance estimates and undermining their utility in critical biomedical applications. Although ensembling offers a solution, deciding whether to explain a single ensemble model or aggregate individual model explanations is difficult due to the nonlinearity of importance measures and remains largely understudied. Our theoretical analysis, developed under assumptions accommodating complex state-of-the-art ML models, reveals that this choice is primarily driven by the model's excess risk. In contrast to prior literature, we show that ensembling at the model level provides more accurate variable-importance estimates, particularly for expressive models, by reducing this leading error term. We validate these findings on classical benchmarks and a large-scale proteomic study from the UK Biobank.


翻译:特征重要性方法在将机器学习模型从预测引擎转变为科学发现工具方面展现出潜力。然而,由于数据采样和算法随机性,表达能力强的模型可能不稳定,导致变量重要性估计不准确,从而削弱了其在关键生物医学应用中的效用。尽管集成方法提供了一种解决方案,但由于重要性度量的非线性特性,决定是解释单个集成模型还是聚合各个模型的解释仍然困难,且相关研究仍显不足。我们的理论分析在能够容纳复杂先进机器学习模型的假设下展开,揭示了这一选择主要由模型的超额风险驱动。与先前文献相反,我们表明在模型层面进行集成能够通过减少这一主导误差项,提供更准确的变量重要性估计,尤其对于表达能力强的模型。我们在经典基准测试和英国生物银行的大规模蛋白质组学研究中验证了这些发现。

0
下载
关闭预览

相关内容

【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
推荐算法中的特征工程
专知会员服务
40+阅读 · 2022年9月9日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关资讯
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员