Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction - 专知论文

会员服务 ·

0

集成 · 稀疏 · 最优 · 算法 · 方差 ·

Objective-Driven Ensembles: Bridging the Gap Between Interpretable Sparsity and Algorithmic Prediction

翻译：目标驱动的集成：弥合可解释稀疏性与算法预测之间的鸿沟

Anthony Christidis,Stefan Van Aelst,Ruben Zamar

Sparse methods (e.g., Best Subset Selection, Elastic Net) are the standard approach for obtaining interpretable models, but they can suffer from high variance and vulnerability to spurious correlations. Alternatively, algorithmic ensembles (e.g., Random Forests, Gradient Boosting) achieve high prediction accuracy but yield uninterpretable black boxes driven by randomization or sequential residual fitting. In recent years, a unifying paradigm has emerged: Objective-Driven Ensembles. By generalizing best subset selection into a joint mathematical optimization problem, this approach generates interpretable ensembles by optimally splitting predictors across a small number of diverse models. In this paper, we synthesize this growing body of literature and illustrate the statistical principles driving its empirical success. Specifically, we utilize finite-sample bounds to demonstrate how penalizing predictor overlap controls ensemble covariance and provides a mathematical hedge against spurious correlations. We evaluate these mechanics using an exact combinatorial oracle, and review how recent computational approximations have successfully scaled this framework to a variety of domains, including high-dimensional data, classification tasks, and settings with casewise or cellwise contamination, achieving machine-learning-level accuracy while retaining the interpretability of sparse models.

翻译：稀疏方法（如最优子集选择、弹性网络）是获取可解释模型的标准方法，但会遭受高方差及易受虚假相关影响的缺陷。相比之下，算法集成方法（如随机森林、梯度提升）虽能达到高预测精度，却因依赖随机化或序贯残差拟合而产生难以解释的黑箱模型。近年来，一种统一的范式——目标驱动集成——应运而生。该方法将最优子集选择推广为联合数学优化问题，通过将预测变量最优地分配到少量差异化模型中，构建可解释的集成模型。本文综合梳理了这一日益增长的文献体系，并阐释其经验成功背后的统计原理。具体而言，我们利用有限样本界证明，惩罚预测变量重叠如何控制集成协方差，并提供抵御虚假相关的数学对冲机制。通过精确组合优化器评估这些机制后，我们综述了近期计算近似方法如何成功将该框架扩展到高维数据、分类任务以及存在个案或单元污染的场景，最终在保持稀疏模型可解释性的同时达到机器学习级别的精度。

0

相关内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【干货书】系统与控制的稀疏性方法,214页pdf

【干货书】系统与控制的稀疏性方法,214页pdf

专知会员服务

40+阅读 · 2023年5月19日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

专知会员服务

80+阅读 · 2022年12月3日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

综述：深度学习时代的目标检测算法

综述：深度学习时代的目标检测算法

极市平台

27+阅读 · 2018年3月17日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

机器学习(17)之集成学习原理总结

机器学习(17)之集成学习原理总结

机器学习算法与Python学习

19+阅读 · 2017年9月16日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Focus, Align, and Sustain: Counteracting Gradient Dilution in Incremental Object Detection

Arxiv

0+阅读 · 6月13日

An integrated interpretable control effectiveness learning and nonlinear control allocation methodology for overactuated aircrafts

Arxiv

0+阅读 · 6月11日

Data-Driven Logistic Regression Ensembles

Arxiv

0+阅读 · 6月9日

Learning to Optimize by Differentiable Programming

Arxiv

0+阅读 · 6月7日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 6月3日

Explainable Forecasting of Scientific Breakthroughs from Concept Network Dynamics

Arxiv

0+阅读 · 6月2日

TRUST-TAEA: A trustworthiness-guided two-archive evolutionary algorithm with variable-grouping sparse search for large-scale multi-objective optimization

Arxiv

0+阅读 · 5月26日

Self-Balancing Gradient Allocation for Heterogeneity-Aware Feature Generation in Click-Through Rate Prediction

Arxiv

0+阅读 · 5月24日

Parallel Sparse and Data-Sparse Factorization-based Linear Solvers

Arxiv

0+阅读 · 5月22日

Bridging the Disciplinary Gap in Explainable AI: From Abstract Desiderata to Concrete Tasks

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【博士论文】利用图结构加速稀疏计算

【博士论文】利用图结构加速稀疏计算

专知会员服务

18+阅读 · 2025年3月6日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【干货书】系统与控制的稀疏性方法,214页pdf

【干货书】系统与控制的稀疏性方法,214页pdf

专知会员服务

40+阅读 · 2023年5月19日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

深度学习如何集成领域知识？IBM研究等《知识增强深度学习》综述，全面阐述科学与经验知识增强的深度学习

专知会员服务

80+阅读 · 2022年12月3日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

清华大学孙茂松课题组:《图神经网络: 方法与应用》综述论文，20页pdf

专知

49+阅读 · 2018年12月23日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

综述：深度学习时代的目标检测算法

综述：深度学习时代的目标检测算法

极市平台

27+阅读 · 2018年3月17日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

机器学习(17)之集成学习原理总结

机器学习(17)之集成学习原理总结

机器学习算法与Python学习

19+阅读 · 2017年9月16日

相关论文

Focus, Align, and Sustain: Counteracting Gradient Dilution in Incremental Object Detection

Arxiv

0+阅读 · 6月13日

An integrated interpretable control effectiveness learning and nonlinear control allocation methodology for overactuated aircrafts

Arxiv

0+阅读 · 6月11日

Data-Driven Logistic Regression Ensembles

Arxiv

0+阅读 · 6月9日

Learning to Optimize by Differentiable Programming

Arxiv

0+阅读 · 6月7日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 6月3日

Explainable Forecasting of Scientific Breakthroughs from Concept Network Dynamics

Arxiv

0+阅读 · 6月2日

TRUST-TAEA: A trustworthiness-guided two-archive evolutionary algorithm with variable-grouping sparse search for large-scale multi-objective optimization

Arxiv

0+阅读 · 5月26日

Self-Balancing Gradient Allocation for Heterogeneity-Aware Feature Generation in Click-Through Rate Prediction

Arxiv

0+阅读 · 5月24日

Parallel Sparse and Data-Sparse Factorization-based Linear Solvers

Arxiv

0+阅读 · 5月22日

Bridging the Disciplinary Gap in Explainable AI: From Abstract Desiderata to Concrete Tasks

Arxiv

0+阅读 · 5月19日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员