Flatness measures based on the spectrum or the trace of the Hessian of the loss are widely used as proxies for the generalization ability of deep networks. However, most existing definitions are either tailored to fully connected architectures, relying on stochastic estimators of the Hessian trace, or ignore the specific geometric structure of modern Convolutional Neural Networks (CNNs). In this work, we develop a flatness measure that is both exact and architecturally faithful for a broad and practically relevant class of CNNs. We first derive a closed-form expression for the trace of the Hessian of the cross-entropy loss with respect to convolutional kernels in networks that use global average pooling followed by a linear classifier. Building on this result, we then specialize the notion of relative flatness to convolutional layers and obtain a parameterization-aware flatness measure that properly accounts for the scaling symmetries and filter interactions induced by convolution and pooling. Finally, we empirically investigate the proposed measure on families of CNNs trained on standard image-classification benchmarks. The results obtained suggest that the proposed measure can serve as a robust tool to assess and compare the generalization performance of CNN models, and to guide the design of architecture and training choices in practice.


翻译:基于损失函数Hessian矩阵谱或迹的平坦度度量被广泛用作深度网络泛化能力的代理指标。然而,现有定义大多要么专为全连接架构设计、依赖于Hessian迹的随机估计量,要么忽略了现代卷积神经网络(CNNs)特有的几何结构。本文针对一类广泛且具有实际意义的CNN,提出了一种既精确又忠实于架构特性的平坦度度量方法。我们首先推导了采用全局平均池化与线性分类器的网络中,交叉熵损失相对于卷积核的Hessian迹的闭式表达式。基于此结果,我们将相对平坦度的概念特化到卷积层,获得了一种参数化感知的平坦度度量,该度量恰当地考虑了卷积和池化操作引发的尺度对称性与滤波器交互作用。最后,我们在标准图像分类基准数据集上训练的CNN族中进行了实证研究。所得结果表明,所提出的度量方法可作为评估和比较CNN模型泛化性能的稳健工具,并为实践中架构设计与训练策略的选择提供指导。

0
下载
关闭预览

相关内容

太值得收藏了!秒懂各种深度CNN操作
机器学习算法与Python学习
11+阅读 · 2019年3月18日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
CNN五大经典模型:LeNet,AlexNet,GoogleNet,VGG,DRL
黑龙江大学自然语言处理实验室
14+阅读 · 2018年9月7日
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
卷积神经网络(CNN)学习笔记1:基础入门
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
0+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关VIP内容
相关资讯
太值得收藏了!秒懂各种深度CNN操作
机器学习算法与Python学习
11+阅读 · 2019年3月18日
直白介绍卷积神经网络(CNN)
算法与数学之美
13+阅读 · 2019年1月23日
CNN五大经典模型:LeNet,AlexNet,GoogleNet,VGG,DRL
黑龙江大学自然语言处理实验室
14+阅读 · 2018年9月7日
一文让你入门CNN,附3份深度学习视频资源
机器学习算法与Python学习
12+阅读 · 2018年3月10日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
【深度】Deep Visualization:可视化并理解CNN
专知
12+阅读 · 2017年9月30日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
CNN、RNN在自动特征提取中的应用
乌镇智库
14+阅读 · 2017年8月4日
卷积神经网络(CNN)学习笔记1:基础入门
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月16日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员