An accurate flatness measure to estimate the generalization performance of CNN models - 专知论文

会员服务 ·

0

度量 · CNN · 泛化 · 卷积 · 泛化性 ·

An accurate flatness measure to estimate the generalization performance of CNN models

翻译：一种精确的平坦度度量方法用于估计CNN模型的泛化性能

Rahman Taleghani,Maryam Mohammadi,Francesco Marchetti

Flatness measures based on the spectrum or the trace of the Hessian of the loss are widely used as proxies for the generalization ability of deep networks. However, most existing definitions are either tailored to fully connected architectures, relying on stochastic estimators of the Hessian trace, or ignore the specific geometric structure of modern Convolutional Neural Networks (CNNs). In this work, we develop a flatness measure that is both exact and architecturally faithful for a broad and practically relevant class of CNNs. We first derive a closed-form expression for the trace of the Hessian of the cross-entropy loss with respect to convolutional kernels in networks that use global average pooling followed by a linear classifier. Building on this result, we then specialize the notion of relative flatness to convolutional layers and obtain a parameterization-aware flatness measure that properly accounts for the scaling symmetries and filter interactions induced by convolution and pooling. Finally, we empirically investigate the proposed measure on families of CNNs trained on standard image-classification benchmarks. The results obtained suggest that the proposed measure can serve as a robust tool to assess and compare the generalization performance of CNN models, and to guide the design of architecture and training choices in practice.

翻译：基于损失函数Hessian矩阵谱或迹的平坦度度量被广泛用作深度网络泛化能力的代理指标。然而，现有定义大多要么专为全连接架构设计、依赖于Hessian迹的随机估计量，要么忽略了现代卷积神经网络（CNNs）特有的几何结构。本文针对一类广泛且具有实际意义的CNN，提出了一种既精确又忠实于架构特性的平坦度度量方法。我们首先推导了采用全局平均池化与线性分类器的网络中，交叉熵损失相对于卷积核的Hessian迹的闭式表达式。基于此结果，我们将相对平坦度的概念特化到卷积层，获得了一种参数化感知的平坦度度量，该度量恰当地考虑了卷积和池化操作引发的尺度对称性与滤波器交互作用。最后，我们在标准图像分类基准数据集上训练的CNN族中进行了实证研究。所得结果表明，所提出的度量方法可作为评估和比较CNN模型泛化性能的稳健工具，并为实践中架构设计与训练策略的选择提供指导。

0

相关内容

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

动态滤波器卷积新高度！DDF：同时解决内容不可知与计算量两大缺陷｜CVPR2021

专知会员服务

21+阅读 · 2021年5月4日

【剑桥大学博士论文】深度学习中的不确定性估计及其在口语评价中的应用，234页pdf

【剑桥大学博士论文】深度学习中的不确定性估计及其在口语评价中的应用，234页pdf

专知会员服务

43+阅读 · 2021年1月2日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【CNN解释器】CNN EXPLAINER: Learning Convolutional Neural Networks with Interactive Visualization Zijie J. Wang, Robert Turko, Omar Shaikh, Haekyu Park, N

【CNN解释器】CNN EXPLAINER: Learning Convolutional Neural Networks with Interactive Visualization Zijie J. Wang, Robert Turko, Omar Shaikh, Haekyu Park, N

专知会员服务

34+阅读 · 2020年4月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

深度卷积神经网络的最新架构综述，A Survey of the Recent Architectures of Deep Convolutional Neural Networks

深度卷积神经网络的最新架构综述，A Survey of the Recent Architectures of Deep Convolutional Neural Networks

专知会员服务

49+阅读 · 2020年2月15日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知

11+阅读 · 2020年2月23日

太值得收藏了！秒懂各种深度CNN操作

太值得收藏了！秒懂各种深度CNN操作

机器学习算法与Python学习

11+阅读 · 2019年3月18日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

算法与数学之美

13+阅读 · 2019年1月23日

CNN五大经典模型:LeNet，AlexNet，GoogleNet，VGG，DRL

CNN五大经典模型:LeNet，AlexNet，GoogleNet，VGG，DRL

黑龙江大学自然语言处理实验室

14+阅读 · 2018年9月7日

一文让你入门CNN，附3份深度学习视频资源

一文让你入门CNN，附3份深度学习视频资源

机器学习算法与Python学习

12+阅读 · 2018年3月10日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

【深度】Deep Visualization:可视化并理解CNN

【深度】Deep Visualization:可视化并理解CNN

专知

12+阅读 · 2017年9月30日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

CNN、RNN在自动特征提取中的应用

CNN、RNN在自动特征提取中的应用

乌镇智库

14+阅读 · 2017年8月4日

卷积神经网络(CNN)学习笔记1：基础入门

卷积神经网络(CNN)学习笔记1：基础入门

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月16日

基于核与核度理论的在线社交网络拓扑结构研究

国家自然科学基金

0+阅读 · 2016年12月31日

面向估计性能优化的网络化控制系统传感器调度

国家自然科学基金

0+阅读 · 2015年12月31日

负虚系统网络一致性算法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于矩量法与渐近波形估计技术的动态海面宽带电磁散射特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CNNs in the Air via Reconfigurable Intelligent Surfaces

Arxiv

0+阅读 · 3月12日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Arxiv

0+阅读 · 3月10日

Neural Networks Generalize on Low Complexity Data

Arxiv

0+阅读 · 3月1日

From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet

Arxiv

0+阅读 · 2月10日

Quantifying Explanation Quality in Graph Neural Networks using Out-of-Distribution Generalization

Arxiv

0+阅读 · 2月7日

Quantifying and Inducing Shape Bias in CNNs via Max-Pool Dilation

Arxiv

0+阅读 · 2月5日

A Generalization Bound for a Family of Implicit Networks

Arxiv

0+阅读 · 2月4日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

12+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

9+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

5+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

如何增强卷积网络泛化性？看T.S. Cohen博士论文《等变卷积网络》，245页pdf

专知会员服务

38+阅读 · 2021年5月29日

动态滤波器卷积新高度！DDF：同时解决内容不可知与计算量两大缺陷｜CVPR2021

专知会员服务

21+阅读 · 2021年5月4日

【剑桥大学博士论文】深度学习中的不确定性估计及其在口语评价中的应用，234页pdf

【剑桥大学博士论文】深度学习中的不确定性估计及其在口语评价中的应用，234页pdf

专知会员服务

43+阅读 · 2021年1月2日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【CNN解释器】CNN EXPLAINER: Learning Convolutional Neural Networks with Interactive Visualization Zijie J. Wang, Robert Turko, Omar Shaikh, Haekyu Park, N

【CNN解释器】CNN EXPLAINER: Learning Convolutional Neural Networks with Interactive Visualization Zijie J. Wang, Robert Turko, Omar Shaikh, Haekyu Park, N

专知会员服务

34+阅读 · 2020年4月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知会员服务

125+阅读 · 2020年2月23日

深度卷积神经网络的最新架构综述，A Survey of the Recent Architectures of Deep Convolutional Neural Networks

深度卷积神经网络的最新架构综述，A Survey of the Recent Architectures of Deep Convolutional Neural Networks

专知会员服务

49+阅读 · 2020年2月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

专知

11+阅读 · 2020年2月23日

太值得收藏了！秒懂各种深度CNN操作

太值得收藏了！秒懂各种深度CNN操作

机器学习算法与Python学习

11+阅读 · 2019年3月18日

直白介绍卷积神经网络（CNN）

直白介绍卷积神经网络（CNN）

算法与数学之美

13+阅读 · 2019年1月23日

CNN五大经典模型:LeNet，AlexNet，GoogleNet，VGG，DRL

CNN五大经典模型:LeNet，AlexNet，GoogleNet，VGG，DRL

黑龙江大学自然语言处理实验室

14+阅读 · 2018年9月7日

一文让你入门CNN，附3份深度学习视频资源

一文让你入门CNN，附3份深度学习视频资源

机器学习算法与Python学习

12+阅读 · 2018年3月10日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

【深度】Deep Visualization:可视化并理解CNN

【深度】Deep Visualization:可视化并理解CNN

专知

12+阅读 · 2017年9月30日

CNN 模型压缩与加速算法综述

CNN 模型压缩与加速算法综述

机器学习研究会

16+阅读 · 2017年8月25日

CNN、RNN在自动特征提取中的应用

CNN、RNN在自动特征提取中的应用

乌镇智库

14+阅读 · 2017年8月4日

卷积神经网络(CNN)学习笔记1：基础入门

卷积神经网络(CNN)学习笔记1：基础入门

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月16日

相关论文

CNNs in the Air via Reconfigurable Intelligent Surfaces

Arxiv

0+阅读 · 3月12日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Arxiv

0+阅读 · 3月10日

Neural Networks Generalize on Low Complexity Data

Arxiv

0+阅读 · 3月1日

From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet

Arxiv

0+阅读 · 2月10日

Quantifying Explanation Quality in Graph Neural Networks using Out-of-Distribution Generalization

Arxiv

0+阅读 · 2月7日

Quantifying and Inducing Shape Bias in CNNs via Max-Pool Dilation

Arxiv

0+阅读 · 2月5日

A Generalization Bound for a Family of Implicit Networks

Arxiv

0+阅读 · 2月4日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Flatness-Aware Stochastic Gradient Langevin Dynamics

Arxiv

0+阅读 · 2月2日

相关基金

基于核与核度理论的在线社交网络拓扑结构研究

国家自然科学基金

0+阅读 · 2016年12月31日

面向估计性能优化的网络化控制系统传感器调度

国家自然科学基金

0+阅读 · 2015年12月31日

负虚系统网络一致性算法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于矩量法与渐近波形估计技术的动态海面宽带电磁散射特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稳健估计方程的复杂纵向数据研究

国家自然科学基金

0+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员