Modern deep learning models generalize remarkably well in-distribution, despite being overparametrized and trained with little to no explicit regularization. Instead, current theory credits implicit regularization imposed by the choice of architecture, hyperparameters, and optimization procedure. However, deep neural networks can be surprisingly non-robust, resulting in overconfident predictions and poor out-of-distribution generalization. Bayesian deep learning addresses this via model averaging, but typically requires significant computational resources as well as carefully elicited priors to avoid overriding the benefits of implicit regularization. Instead, in this work, we propose to regularize variational neural networks solely by relying on the implicit bias of (stochastic) gradient descent. We theoretically characterize this inductive bias in overparametrized linear models as generalized variational inference and demonstrate the importance of the choice of parametrization. Empirically, our approach demonstrates strong in- and out-of-distribution performance without additional hyperparameter tuning and with minimal computational overhead.


翻译:现代深度学习模型在分布内表现出卓越的泛化能力,尽管其参数过度且训练过程中很少或没有使用显式正则化。相反,当前理论将此归因于由架构选择、超参数设置及优化过程所施加的隐式正则化作用。然而,深度神经网络可能表现出惊人的非鲁棒性,导致预测过度自信及分布外泛化性能不佳。贝叶斯深度学习通过模型平均方法应对此问题,但通常需要大量计算资源以及精心设计的先验分布,以避免覆盖隐式正则化的优势。为此,本研究提出一种仅依赖(随机)梯度下降隐式偏置来正则化变分神经网络的方法。我们在理论上将这种过参数化线性模型中的归纳偏置刻画为广义变分推断,并论证了参数化选择的重要性。实验表明,该方法在不进行额外超参数调优且计算开销极小的条件下,实现了优异的分布内与分布外性能。

0
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
【CMU博士论文】深度学习中泛化的量化、理解与改进
专知会员服务
21+阅读 · 2025年10月11日
深度学习中泛化的量化、理解与改进
专知会员服务
17+阅读 · 2025年9月13日
深度学习算法发展简述,从DNN到Transformer再到ChatGPT
专知会员服务
153+阅读 · 2022年12月22日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
简明深度学习学习资料分享:从基础到进阶
深度学习与NLP
27+阅读 · 2019年9月7日
深度学习(deep learning)发展史
机器学习算法与Python学习
12+阅读 · 2018年3月19日
深度学习中的五大正则化方法和七大优化策略
全球人工智能
11+阅读 · 2017年12月25日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员