The Implicit Bias of Logit Regularization - 专知论文

会员服务 ·

0

正则化 · 偏置 · 对数几率 · 噪声 · 标签平滑 ·

The Implicit Bias of Logit Regularization

翻译：对数正则化的隐式偏置

Alon Beck,Yohai Bar Sinai,Noam Levi

Logit regularization, the addition a convex penalty directly in logit space, is widely used in modern classifiers, with label smoothing as a prominent example. While such methods often improve calibration and generalization, their mechanism remains under-explored. In this work, we analyze a general class of such logit regularizers in the context of linear classification, and demonstrate that they induce an implicit bias of logit clustering around finite per-sample targets. For Gaussian data, or whenever logits are sufficiently clustered, we prove that logit clustering drives the weight vector to align exactly with Fisher's Linear Discriminant. To demonstrate the consequences, we study a simple signal-plus-noise model in which this transition has dramatic effects: Logit regularization halves the critical sample complexity and induces grokking in the small-noise limit, while making generalization robust to noise. Our results extend the theoretical understanding of label smoothing and highlight the efficacy of a broader class of logit-regularization methods.

翻译：对数正则化（即在logit空间直接添加凸惩罚项）在现代分类器中广泛应用，标签平滑是其典型代表。尽管这类方法通常能改善校准性和泛化能力，但其作用机制仍未得到充分探索。在本研究中，我们在线性分类框架下分析了一类通用的对数正则化方法，证明它们会诱导logit围绕有限样本目标形成聚类的隐式偏置。对于高斯数据或当logit充分聚类时，我们严格证明这种聚类效应会驱使权重向量精确对齐Fisher线性判别方向。为揭示其影响，我们研究了一个简单的信号加噪声模型，其中该转变会产生显著效应：对数正则化将临界样本复杂度减半，并在小噪声极限下诱导顿悟现象，同时使泛化对噪声具有鲁棒性。我们的研究拓展了对标签平滑的理论理解，并凸显了更广泛的对数正则化方法的有效性。

0

相关内容

正则化

在数学，统计学和计算机科学中，尤其是在机器学习和逆问题中，正则化是添加信息以解决不适定问题或防止过度拟合的过程。正则化适用于不适定的优化问题中的目标函数。

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

专知会员服务

20+阅读 · 2022年3月4日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【经典书】凸优化理论，MIT-Dimitri P. Bertsekas教授，257页pdf

【经典书】凸优化理论，MIT-Dimitri P. Bertsekas教授，257页pdf

专知会员服务

80+阅读 · 2021年8月28日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

机器学习必读新书-《凸优化算法原理详解》，334页pdf

机器学习必读新书-《凸优化算法原理详解》，334页pdf

专知

10+阅读 · 2022年1月4日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

夸克禁闭机制中出现的偏微分方程问题

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

平面切换微分系统的正规形及分岔

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图研究的若干代数方法

国家自然科学基金

0+阅读 · 2014年12月31日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Expregular functions

Arxiv

0+阅读 · 2月24日

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

Arxiv

0+阅读 · 2月22日

Concentration inequalities for log-concave sequences

Arxiv

0+阅读 · 2月17日

Optimization and Regularization Under Arbitrary Objectives

Arxiv

0+阅读 · 2月15日

The Implicit Bias of Logit Regularization

Arxiv

0+阅读 · 2月13日

On the implicit regularization of Langevin dynamics with projected noise

Arxiv

0+阅读 · 2月12日

Implicit Unitarity Bias in Tensor Factorization: A Theoretical Framework for Symmetry Group Discovery

Arxiv

0+阅读 · 2月6日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Theoretical Analysis of Measure Consistency Regularization for Partially Observed Data

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

1+阅读 · 23分钟前

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 33分钟前

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

2+阅读 · 38分钟前

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

2+阅读 · 49分钟前

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

3+阅读 · 50分钟前

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

3+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

非凸优化问题综述“从对称性到几何性”，罗切斯特大学等

专知会员服务

29+阅读 · 2022年7月17日

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

【罗切斯特Yuqian Zhang等书】从对称到几何:可处理的非凸问题，34页pdf，From Symmetry to Geometry: Tractable Nonconvex Problems

专知会员服务

20+阅读 · 2022年3月4日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【经典书】凸优化理论，MIT-Dimitri P. Bertsekas教授，257页pdf

【经典书】凸优化理论，MIT-Dimitri P. Bertsekas教授，257页pdf

专知会员服务

80+阅读 · 2021年8月28日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

机器学习必读新书-《凸优化算法原理详解》，334页pdf

机器学习必读新书-《凸优化算法原理详解》，334页pdf

专知

10+阅读 · 2022年1月4日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

系列教程GNN-algorithms之三：《将图卷积简化进行到底—SGC》

专知

10+阅读 · 2020年8月5日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Expregular functions

Arxiv

0+阅读 · 2月24日

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

Arxiv

0+阅读 · 2月22日

Concentration inequalities for log-concave sequences

Arxiv

0+阅读 · 2月17日

Optimization and Regularization Under Arbitrary Objectives

Arxiv

0+阅读 · 2月15日

The Implicit Bias of Logit Regularization

Arxiv

0+阅读 · 2月13日

On the implicit regularization of Langevin dynamics with projected noise

Arxiv

0+阅读 · 2月12日

Implicit Unitarity Bias in Tensor Factorization: A Theoretical Framework for Symmetry Group Discovery

Arxiv

0+阅读 · 2月6日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Theoretical Analysis of Measure Consistency Regularization for Partially Observed Data

Arxiv

0+阅读 · 2月1日

相关基金

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

夸克禁闭机制中出现的偏微分方程问题

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

平面切换微分系统的正规形及分岔

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图研究的若干代数方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员