子采样集成可指数级改善泛化尾部 (Subsampled Ensemble Can Improve Generalization Tail Exponentially) - 专知论文

会员服务 ·

0

集成 · 学习器 · 衰减 · 子采样 · 泛化 ·

Subsampled Ensemble Can Improve Generalization Tail Exponentially

翻译：子采样集成可指数级改善泛化尾部

Huajie Qian,Donghao Ying,Henry Lam,Wotao Yin

from arxiv, 46 pages, 21 figures

Ensemble learning is a popular technique to improve the accuracy of machine learning models. It traditionally hinges on the rationale that aggregating multiple weak models can lead to better models with lower variance and hence higher stability, especially for discontinuous base learners. In this paper, we provide a new perspective on ensembling. By selecting the most frequently generated model from the base learner when repeatedly applied to subsamples, we can attain exponentially decaying tails for the excess risk, even if the base learner suffers from slow (i.e., polynomial) decay rates. This tail enhancement power of ensembling applies to base learners that have reasonable predictive power to begin with and is stronger than variance reduction in the sense of exhibiting rate improvement. We demonstrate how our ensemble methods can substantially improve out-of-sample performances in a range of numerical examples involving heavy-tailed data or intrinsically slow rates.

翻译：集成学习是提升机器学习模型准确性的常用技术。传统上，其核心原理在于：聚合多个弱模型可获得方差更低、稳定性更高的更优模型，尤其适用于不连续的基础学习器。本文提出一种关于集成的新视角：通过对基础学习器重复应用于子样本时最常生成的模型进行选择，即使基础学习器存在衰减速率缓慢（即多项式衰减）的问题，我们仍能实现超额风险的指数级衰减尾部。这种集成方法的尾部增强能力适用于本身具有合理预测能力的基础学习器，且在体现速率改进的意义上强于方差缩减。我们通过一系列涉及重尾数据或固有慢速率的数值算例，展示了所提集成方法如何显著提升样本外性能。

0

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

集成学习研究现状及展望

集成学习研究现状及展望

专知会员服务

58+阅读 · 2023年7月20日

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知会员服务

184+阅读 · 2023年4月11日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Deep Ensembling with No Overhead for either Training or Testing: The All-Round Blessings of Dynamic Sparsity

Arxiv

0+阅读 · 2月2日

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models

Arxiv

0+阅读 · 1月28日

Deep Ensembling with No Overhead for either Training or Testing: The All-Round Blessings of Dynamic Sparsity

Arxiv

0+阅读 · 1月27日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data

Arxiv

0+阅读 · 1月7日

Are Ensembles Getting Better all the Time?

Arxiv

0+阅读 · 2025年12月30日

Enhancing Diffusion-Based Sampling with Molecular Collective Variables

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

相关VIP内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

集成学习研究现状及展望

集成学习研究现状及展望

专知会员服务

58+阅读 · 2023年7月20日

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知会员服务

184+阅读 · 2023年4月11日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

分布外泛化(Out-Of-Distribution Generalization) 综述论文，22页pdf240篇文献

专知会员服务

64+阅读 · 2021年9月2日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

常用的模型集成方法介绍：bagging、boosting 、stacking

常用的模型集成方法介绍：bagging、boosting 、stacking

机器之心

14+阅读 · 2019年5月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Deep Ensembling with No Overhead for either Training or Testing: The All-Round Blessings of Dynamic Sparsity

Arxiv

0+阅读 · 2月2日

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models

Arxiv

0+阅读 · 1月28日

Deep Ensembling with No Overhead for either Training or Testing: The All-Round Blessings of Dynamic Sparsity

Arxiv

0+阅读 · 1月27日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月21日

When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Arxiv

0+阅读 · 1月16日

Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data

Arxiv

0+阅读 · 1月7日

Are Ensembles Getting Better all the Time?

Arxiv

0+阅读 · 2025年12月30日

Enhancing Diffusion-Based Sampling with Molecular Collective Variables

Arxiv

0+阅读 · 2025年12月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

谱聚类在多个网络模块识别中的推广及在生物网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员