Understanding the generalization behavior of deep neural networks remains a fundamental challenge in modern statistical learning theory. Among existing approaches, PAC-Bayesian norm-based bounds have demonstrated particular promise due to their data-dependent nature and their ability to capture algorithmic and geometric properties of learned models. However, most existing results rely on isotropic Gaussian posteriors, heavy use of spectral-norm concentration for weight perturbations, and largely architecture-agnostic analyses, which together limit both the tightness and practical relevance of the resulting bounds. To address these limitations, in this work, we propose a unified framework for PAC-Bayesian norm-based generalization by reformulating the derivation of generalization bounds as a stochastic optimization problem over anisotropic Gaussian posteriors. The key to our approach is a sensitivity matrix that quantifies the network outputs with respect to structured weight perturbations, enabling the explicit incorporation of heterogeneous parameter sensitivities and architectural structures. By imposing different structural assumptions on this sensitivity matrix, we derive a family of generalization bounds that recover several existing PAC-Bayesian results as special cases, while yielding bounds that are comparable to or tighter than state-of-the-art approaches. Such a unified framework provides a principled and flexible way for geometry-/structure-aware and interpretable generalization analysis in deep learning.


翻译:理解深度神经网络的泛化行为仍然是现代统计学习理论中的一个基本挑战。在现有方法中,基于范数的PAC-Bayesian界因其数据依赖的特性以及捕捉学习模型算法与几何性质的能力而展现出特别的潜力。然而,大多数现有结果依赖于各向同性高斯后验、大量使用权重扰动的谱范数集中性以及很大程度上与架构无关的分析,这些共同限制了所得界的紧致性和实际相关性。为解决这些局限性,本文通过将泛化界的推导重新表述为各向异性高斯后验上的随机优化问题,提出了一个统一的基于范数的PAC-Bayesian泛化分析框架。我们方法的关键在于一个灵敏度矩阵,该矩阵量化了网络输出相对于结构化权重扰动的敏感性,从而能够显式地纳入异质的参数敏感性和架构结构。通过对该灵敏度矩阵施加不同的结构假设,我们推导出一族泛化界,它们将多个现有的PAC-Bayesian结果作为特例包含在内,同时产生的界与最先进方法相当或更紧。这样一个统一的框架为深度学习中几何/结构感知且可解释的泛化分析提供了一种原则性且灵活的方法。

0
下载
关闭预览

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进
专知会员服务
21+阅读 · 2025年10月11日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
【阿姆斯特丹博士论文】在测试时学习泛化
专知会员服务
12+阅读 · 2025年6月3日
【博士论文】基于信息论的泛化理论方法,274页pdf
专知会员服务
54+阅读 · 2024年6月3日
【博士论文】信息论视角下的泛化理论方法,274页pdf
专知会员服务
51+阅读 · 2024年4月28日
【DTU博士论文】结构化表示学习的泛化
专知会员服务
53+阅读 · 2023年4月27日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
10+阅读 · 2022年1月16日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员