Decoding Generalization from Memorization in Deep Neural Networks - 专知论文

会员服务 ·

0

泛化 · 解码 · 泛化能力 · 深度网络 · 记忆效应 ·

Decoding Generalization from Memorization in Deep Neural Networks

翻译：深度神经网络中泛化与记忆的解码

Simran Ketha,Venkatakrishnan Ramaswamy

Overparameterized deep networks that generalize well have been key to the dramatic success of deep learning in recent years. The reasons for their remarkable ability to generalize are not well understood yet. When class labels in the training set are shuffled to varying degrees, it is known that deep networks can still reach perfect training accuracy at the detriment of generalization to true labels -- a phenomenon that has been called memorization. It has, however, been unclear why the poor generalization to true labels that accompanies such memorization, comes about. One possibility is that during training, all layers of the network irretrievably re-organize their representations in a manner that makes generalization to true labels difficult. The other possibility is that one or more layers of the trained network retain significantly more latent ability to generalize to true labels, but the network somehow "chooses" to readout in a manner that is detrimental to generalization to true labels. Here, we provide evidence for the latter possibility by demonstrating, empirically, that such models possess information in their representations for substantially-improved generalization to true labels. Furthermore, such abilities can be easily decoded from the internals of the trained model, and we build a technique to do so. We demonstrate results on multiple models trained with standard datasets. Our code is available at: https://github.com/simranketha/MASC_DNN.

翻译：近年来，泛化性能优异的过参数化深度网络是深度学习取得巨大成功的关键。然而，其卓越泛化能力的原因尚未得到充分理解。已知当训练集中的类别标签被不同程度地打乱时，深度网络仍能达到完美的训练精度，但会损害对真实标签的泛化能力——这一现象被称为记忆效应。然而，为何伴随这种记忆效应会出现对真实标签的泛化能力下降，目前尚不清楚。一种可能性是：在训练过程中，网络的所有层都以不可逆的方式重组其表征，导致对真实标签的泛化变得困难。另一种可能性是：训练后的网络有一个或多个层保留了显著更强的对真实标签的泛化潜力，但网络以某种方式“选择”了不利于对真实标签泛化的读出机制。本文通过实证证明，此类模型在其表征中蕴含着可显著提升对真实标签泛化能力的信息，从而为后一种可能性提供了证据。此外，这种能力可以轻易地从训练模型的内部解码出来，我们构建了一种实现该解码的技术。我们在多个使用标准数据集训练的模型上展示了实验结果。代码发布于：https://github.com/simranketha/MASC_DNN。

0

相关内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【UCLA博士论文】神经网络捕获的信息:与记忆和泛化的联系，143页pdf

【UCLA博士论文】神经网络捕获的信息:与记忆和泛化的联系，143页pdf

专知会员服务

41+阅读 · 2023年7月3日

【普林斯顿博士论文】深度神经网络在监督学习、生成建模和自适应数据分析中的泛化，134页pdf

【普林斯顿博士论文】深度神经网络在监督学习、生成建模和自适应数据分析中的泛化，134页pdf

专知会员服务

56+阅读 · 2023年4月18日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

专知会员服务

85+阅读 · 2021年10月22日

深度神经网络模型压缩综述

专知会员服务

118+阅读 · 2020年8月22日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

51+阅读 · 2019年1月6日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Position: Many generalization measures for deep learning are fragile

Arxiv

0+阅读 · 2月11日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Decoupling Generalizability and Membership Privacy Risks in Neural Networks

Arxiv

0+阅读 · 2月9日

Rethinking Graph Generalization through the Lens of Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月9日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Quantization-Aware Regularizers for Deep Neural Networks Compression

Arxiv

0+阅读 · 2月3日

Generalizable and Interpretable RF Fingerprinting with Shapelet-Enhanced Large Language Models

Arxiv

0+阅读 · 2月3日

Decoupling Generalizability and Membership Privacy Risks in Neural Networks

Arxiv

0+阅读 · 2月2日

Regularisation in neural networks: a survey and empirical analysis of approaches

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

3+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

1+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

4+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

1+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

2+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

【牛津大学博士论文】超参数化神经网络的泛化与表达性，221页pdf

专知会员服务

32+阅读 · 2024年4月19日

【UCLA博士论文】神经网络捕获的信息:与记忆和泛化的联系，143页pdf

【UCLA博士论文】神经网络捕获的信息:与记忆和泛化的联系，143页pdf

专知会员服务

41+阅读 · 2023年7月3日

【普林斯顿博士论文】深度神经网络在监督学习、生成建模和自适应数据分析中的泛化，134页pdf

【普林斯顿博士论文】深度神经网络在监督学习、生成建模和自适应数据分析中的泛化，134页pdf

专知会员服务

56+阅读 · 2023年4月18日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

为什么深度学习泛化性好？Google发布82页《深度学习泛化性揭秘》论文提出相干性梯度理论来解释

专知会员服务

64+阅读 · 2022年3月23日

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

Google 发布82页《深度学习泛化性揭秘》综述论文，On the Generalization Mystery in Deep Learning

专知会员服务

61+阅读 · 2022年3月22日

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

深度学习为何泛化好？CMU博士论文《解释深度学习中的泛化性》探究深度学习泛化性的理论基础进展

专知会员服务

85+阅读 · 2021年10月22日

深度神经网络模型压缩综述

专知会员服务

118+阅读 · 2020年8月22日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

这有一份花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知

42+阅读 · 2019年1月7日

下载 | 512页教程《神经网络与深度学习》，2018最新著作

下载 | 512页教程《神经网络与深度学习》，2018最新著作

机器学习算法与Python学习

51+阅读 · 2019年1月6日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

相关论文

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Position: Many generalization measures for deep learning are fragile

Arxiv

0+阅读 · 2月11日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Decoupling Generalizability and Membership Privacy Risks in Neural Networks

Arxiv

0+阅读 · 2月9日

Rethinking Graph Generalization through the Lens of Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月9日

Interpretability and Generalization Bounds for Learning Spatial Physics

Arxiv

0+阅读 · 2月9日

Quantization-Aware Regularizers for Deep Neural Networks Compression

Arxiv

0+阅读 · 2月3日

Generalizable and Interpretable RF Fingerprinting with Shapelet-Enhanced Large Language Models

Arxiv

0+阅读 · 2月3日

Decoupling Generalizability and Membership Privacy Risks in Neural Networks

Arxiv

0+阅读 · 2月2日

Regularisation in neural networks: a survey and empirical analysis of approaches

Arxiv

0+阅读 · 1月30日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员