When Bias Meets Trainability: Connecting Theories of Initialization - 专知论文

会员服务 ·

0

偏置 · 初始化 · 关联 · DNN · 类别 ·

When Bias Meets Trainability: Connecting Theories of Initialization

翻译：当偏置遇见可训练性：初始化理论的关联

Alberto Bassi,Marco Baity-Jesi,Aurelien Lucchi,Carlo Albert,Emanuele Francazi

The statistical properties of deep neural networks (DNNs) at initialization play an important role to comprehend their trainability and the intrinsic architectural biases they possess before data exposure Well established mean field (MF) theories have uncovered that the distribution of parameters of randomly initialized networks strongly influences the behavior of the gradients, dictating whether they explode or vanish. Recent work has showed that untrained DNNs also manifest an initial guessing bias (IGB), in which large regions of the input space are assigned to a single class. In this work, we provide a theoretical proof that links IGB to previous MF theories for a vast class of DNNs, showing that efficient learning is tightly connected to a network prejudice towards a specific class. This connection leads to a counterintuitive conclusion: the initialization that optimizes trainability is systematically biased rather than neutral.

翻译：深度神经网络（DNN）在初始化阶段的统计特性，对于理解其可训练性及在接触数据前所固有的架构偏置至关重要。成熟的平均场（MF）理论已揭示，随机初始化网络的参数分布强烈影响梯度的行为，决定其是爆炸还是消失。近期研究表明，未经训练的DNN也表现出初始猜测偏置（IGB），即将输入空间的大部分区域分配给单一类别。本工作中，我们为广泛类别的DNN提供了将IGB与先前MF理论相联系的理论证明，表明高效学习与网络对特定类别的偏好紧密相关。这一关联导出了一个反直觉的结论：优化可训练性的初始化方式本质上是系统偏置的，而非中性的。

0

相关内容

【博士论文】数据与任务的物理学：深度学习中的局部性与组合性理论

【博士论文】数据与任务的物理学：深度学习中的局部性与组合性理论

专知会员服务

22+阅读 · 2025年10月10日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

《可解释人工智能（XAI）: 数据挖掘视角》最新综述

《可解释人工智能（XAI）: 数据挖掘视角》最新综述

专知会员服务

54+阅读 · 2024年1月11日

GNN如何建模因果性？港科大(广州)等最新《可信赖图神经网络: 因果视角》综述

GNN如何建模因果性？港科大(广州)等最新《可信赖图神经网络: 因果视角》综述

专知会员服务

35+阅读 · 2023年12月22日

【KDD2023教程】不确定性量化在深度学习中的应用

【KDD2023教程】不确定性量化在深度学习中的应用

专知会员服务

43+阅读 · 2023年8月19日

《利用强化学习对深度神经网络形成对抗性样本攻击》2023最新83页论文

《利用强化学习对深度神经网络形成对抗性样本攻击》2023最新83页论文

专知会员服务

76+阅读 · 2023年5月11日

【EMORY博士论文】几何数据的可解释和交互式表示学习，187页pdf

【EMORY博士论文】几何数据的可解释和交互式表示学习，187页pdf

专知会员服务

36+阅读 · 2023年3月3日

《可解释深度学习：指南》2022亚马逊等68页论文

《可解释深度学习：指南》2022亚马逊等68页论文

专知会员服务

60+阅读 · 2022年10月31日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Loop Corrections to the Training and Generalization Errors of Random Feature Models

Arxiv

0+阅读 · 4月14日

Socrates Loss: Unifying Confidence Calibration and Classification by Leveraging the Unknown

Arxiv

0+阅读 · 4月14日

From Reachability to Learnability: Geometric Design Principles for Quantum Neural Networks

Arxiv

0+阅读 · 3月25日

Unveiling Hidden Convexity in Deep Learning: a Sparse Signal Processing Perspective

Arxiv

0+阅读 · 3月25日

CATFormer: When Continual Learning Meets Spiking Transformers With Dynamic Thresholds

Arxiv

0+阅读 · 3月16日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Arxiv

0+阅读 · 3月4日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

Arxiv

0+阅读 · 2月23日

Survey on Trustworthy Graph Neural Networks: From A Causal Perspective

Arxiv

10+阅读 · 2023年12月19日

VIP会员

文章信息

相关主题

最新内容

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

1+阅读 · 50分钟前

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

1+阅读 · 今天3:21

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

2+阅读 · 今天3:03

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

2+阅读 · 今天2:59

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

3+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

3+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

2+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

5+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

2+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

相关VIP内容

【博士论文】数据与任务的物理学：深度学习中的局部性与组合性理论

【博士论文】数据与任务的物理学：深度学习中的局部性与组合性理论

专知会员服务

22+阅读 · 2025年10月10日

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

【博士论文】从噪声数据中深度学习的信息特征和示例的优先排序，94页pdf

专知会员服务

32+阅读 · 2024年3月11日

《可解释人工智能（XAI）: 数据挖掘视角》最新综述

《可解释人工智能（XAI）: 数据挖掘视角》最新综述

专知会员服务

54+阅读 · 2024年1月11日

GNN如何建模因果性？港科大(广州)等最新《可信赖图神经网络: 因果视角》综述

GNN如何建模因果性？港科大(广州)等最新《可信赖图神经网络: 因果视角》综述

专知会员服务

35+阅读 · 2023年12月22日

【KDD2023教程】不确定性量化在深度学习中的应用

【KDD2023教程】不确定性量化在深度学习中的应用

专知会员服务

43+阅读 · 2023年8月19日

《利用强化学习对深度神经网络形成对抗性样本攻击》2023最新83页论文

《利用强化学习对深度神经网络形成对抗性样本攻击》2023最新83页论文

专知会员服务

76+阅读 · 2023年5月11日

【EMORY博士论文】几何数据的可解释和交互式表示学习，187页pdf

【EMORY博士论文】几何数据的可解释和交互式表示学习，187页pdf

专知会员服务

36+阅读 · 2023年3月3日

《可解释深度学习：指南》2022亚马逊等68页论文

《可解释深度学习：指南》2022亚马逊等68页论文

专知会员服务

60+阅读 · 2022年10月31日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知会员服务

159+阅读 · 2020年5月2日

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

智能技术在战场指挥控制系统中的应用（附中英文版下载）

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

美国军方使用的10种反无人机武器（2026年更新）

北约《俄乌战争经验教训课程指南：25份课程计划》150页

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

37+阅读 · 2020年5月2日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【论文笔记】具有可微分池化的分层图表示学习

【论文笔记】具有可微分池化的分层图表示学习

专知

47+阅读 · 2019年11月11日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

学界 | 图神经网络+池化模块，斯坦福等提出层级图表征学习

机器之心

30+阅读 · 2018年7月16日

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

【论文推荐】最新7篇条件随机场（CRF）相关论文—图像标注、对抗学习、端到端、注意力机制、三维人体姿态、图像分割、行为分割和识别

专知

16+阅读 · 2018年2月13日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

相关论文

Loop Corrections to the Training and Generalization Errors of Random Feature Models

Arxiv

0+阅读 · 4月14日

Socrates Loss: Unifying Confidence Calibration and Classification by Leveraging the Unknown

Arxiv

0+阅读 · 4月14日

From Reachability to Learnability: Geometric Design Principles for Quantum Neural Networks

Arxiv

0+阅读 · 3月25日

Unveiling Hidden Convexity in Deep Learning: a Sparse Signal Processing Perspective

Arxiv

0+阅读 · 3月25日

CATFormer: When Continual Learning Meets Spiking Transformers With Dynamic Thresholds

Arxiv

0+阅读 · 3月16日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Arxiv

0+阅读 · 3月4日

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Arxiv

0+阅读 · 2月25日

A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

Arxiv

0+阅读 · 2月23日

Survey on Trustworthy Graph Neural Networks: From A Causal Perspective

Arxiv

10+阅读 · 2023年12月19日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员