The Implicit Bias of Logit Regularization - 专知论文

会员服务 ·

0

对数几率 · 正则化 · 偏差 · 噪声 · 标签平滑 ·

The Implicit Bias of Logit Regularization

翻译：Logit正则化的隐式偏差

Alon Beck,Yohai Bar Sinai,Noam Levi

Logit regularization, the addition of a convex penalty directly in logit space, is widely used in modern classifiers, with label smoothing as a prominent example. While such methods often improve calibration and generalization, their mechanism remains under-explored. In this work, we analyze a general class of such logit regularizers in the context of linear classification, and demonstrate that they induce an implicit bias of logit clustering around finite per-sample targets. For Gaussian data, or whenever logits are sufficiently clustered, we prove that logit clustering drives the weight vector to align exactly with Fisher's Linear Discriminant. To demonstrate the consequences, we study a simple signal-plus-noise model in which this transition has dramatic effects: Logit regularization halves the critical sample complexity and induces grokking in the small-noise limit, while making generalization robust to noise. Our results extend the theoretical understanding of label smoothing and highlight the efficacy of a broader class of logit-regularization methods.

翻译：Logit正则化，即在logit空间直接添加凸惩罚项，是现代分类器中广泛采用的技术，其中标签平滑是典型代表。尽管此类方法通常能提升校准效果与泛化性能，其作用机制仍未得到充分探索。在本研究中，我们在线性分类框架下分析了一类通用的logit正则化方法，证明其会诱导logit围绕有限样本目标形成聚类的隐式偏差。对于高斯数据或当logit充分聚类时，我们严格证明了这种聚类效应会驱使权重向量精确对齐费希尔线性判别式。为阐明其影响，我们研究了一个简单的信号加噪声模型，其中该转变会产生显著效应：Logit正则化能将临界样本复杂度降低一半，并在小噪声极限下诱导顿悟现象，同时使泛化性能对噪声具有鲁棒性。我们的研究拓展了对标签平滑的理论理解，并揭示了一类更广泛的logit正则化方法的有效性。

0

相关内容

对数几率

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

[ICML2024]消除偏差：微调基础模型以进行半监督学习

[ICML2024]消除偏差：微调基础模型以进行半监督学习

专知会员服务

18+阅读 · 2024年5月23日

什么是共形预测(conformal prediction)？LPSM最新《共形预测》教程，71页ppt

什么是共形预测(conformal prediction)？LPSM最新《共形预测》教程，71页ppt

专知会员服务

44+阅读 · 2023年9月3日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

机器学习常见模式LogSumExp解密

机器学习常见模式LogSumExp解密

论智

21+阅读 · 2018年10月30日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

Self-Regularized Learning Methods

Arxiv

0+阅读 · 3月17日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Variational Garrote for Sparse Inverse Problems

Arxiv

0+阅读 · 3月13日

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

Arxiv

0+阅读 · 2月22日

The Implicit Bias of Logit Regularization

Arxiv

0+阅读 · 2月12日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Convergence Rate of the Last Iterate of Stochastic Proximal Algorithms

Arxiv

0+阅读 · 2月5日

Transcendental Regularization of Finite Mixtures:Theoretical Guarantees and Practical Limitations

Arxiv

0+阅读 · 2月3日

Theoretical Analysis of Measure Consistency Regularization for Partially Observed Data

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

6+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

2+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

4+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

4+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

4+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

4+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

5+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

4+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

14+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

[ICML2024]消除偏差：微调基础模型以进行半监督学习

[ICML2024]消除偏差：微调基础模型以进行半监督学习

专知会员服务

18+阅读 · 2024年5月23日

什么是共形预测(conformal prediction)？LPSM最新《共形预测》教程，71页ppt

什么是共形预测(conformal prediction)？LPSM最新《共形预测》教程，71页ppt

专知会员服务

44+阅读 · 2023年9月3日

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

DNN中的凸优化如何理解？斯坦福博士论文《神经网络凸优化》，265页pdf全面阐述

专知会员服务

66+阅读 · 2023年5月29日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

59+阅读 · 2021年4月5日

【CVPR2021】在类别不平衡的数据上施展半监督学习

专知会员服务

38+阅读 · 2021年3月29日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

系列教程GNN-algorithms之五：《注意力机制在图上的应用—GAT》

专知

14+阅读 · 2020年8月7日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

【学界】虚拟对抗训练：一种新颖的半监督学习正则化方法

GAN生成式对抗网络

10+阅读 · 2019年6月9日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

机器学习常见模式LogSumExp解密

机器学习常见模式LogSumExp解密

论智

21+阅读 · 2018年10月30日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Self-Regularized Learning Methods

Arxiv

0+阅读 · 3月17日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Variational Garrote for Sparse Inverse Problems

Arxiv

0+阅读 · 3月13日

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

Arxiv

0+阅读 · 2月22日

The Implicit Bias of Logit Regularization

Arxiv

0+阅读 · 2月12日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Convergence Rate of the Last Iterate of Stochastic Proximal Algorithms

Arxiv

0+阅读 · 2月5日

Transcendental Regularization of Finite Mixtures:Theoretical Guarantees and Practical Limitations

Arxiv

0+阅读 · 2月3日

Theoretical Analysis of Measure Consistency Regularization for Partially Observed Data

Arxiv

0+阅读 · 2月1日

相关基金

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

广义单调（增生）算子的零点逼近与分裂可行问题的正则化研究

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

基于稀疏表示和流形理论的半监督分类研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员