Implicit Bias and Convergence of Matrix Stochastic Mirror Descent - 专知论文

会员服务 ·

0

镜像 · 偏差 · 收敛性 · 多类分类 · 矩阵补全 ·

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

翻译：隐式偏差与矩阵随机镜像下降的收敛性

Danil Akhtiamov,Reza Ghane,Babak Hassibi

We investigate Stochastic Mirror Descent (SMD) with matrix parameters and vector-valued predictions, a framework relevant to multi-class classification and matrix completion problems. Focusing on the overparameterized regime, where the total number of parameters exceeds the number of training samples, we prove that SMD with matrix mirror functions $ψ(\cdot)$ converges exponentially to a global interpolator. Furthermore, we generalize classical implicit bias results of vector SMD by demonstrating that the matrix SMD algorithm converges to the unique solution minimizing the Bregman divergence induced by $ψ(\cdot)$ from initialization subject to interpolating the data. These findings reveal how matrix mirror maps dictate inductive bias in high-dimensional, multi-output problems.

翻译：本文研究了具有矩阵参数和向量值预测的随机镜像下降（SMD）方法，该框架与多类分类和矩阵补全问题密切相关。聚焦于过参数化机制（即参数总数超过训练样本数的情况），我们证明了采用矩阵镜像函数 $ψ(\cdot)$ 的 SMD 能以指数速度收敛至全局插值解。此外，我们推广了向量 SMD 的经典隐式偏差结论，证明了矩阵 SMD 算法在满足数据插值约束的条件下，会收敛到由 $ψ(\cdot)$ 诱导的 Bregman 散度最小化的唯一解（该最小化过程以初始化点为基准）。这些发现揭示了矩阵镜像映射如何在高维多输出问题中决定归纳偏差。

0

相关内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

专知会员服务

39+阅读 · 2023年1月31日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

60+阅读 · 2020年11月21日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

专知会员服务

44+阅读 · 2019年10月28日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《应用随机微分方程》，324页pdf新书免费分享

《应用随机微分方程》，324页pdf新书免费分享

专知

20+阅读 · 2019年5月6日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

随机微分方程解的稳定性和矩有界性

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

统计收敛的测度理论与超滤子收敛

国家自然科学基金

0+阅读 · 2014年12月31日

随机系数和带跳的线性随机微分系统的H2/H∞控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

Mirror Descent on Riemannian Manifolds

Arxiv

0+阅读 · 3月18日

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

Arxiv

0+阅读 · 3月2日

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Arxiv

0+阅读 · 2月18日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

On the Convergence of Wasserstein Gradient Descent for Sampling

Arxiv

0+阅读 · 2月3日

A Random Matrix Theory Perspective on the Consistency of Diffusion Models

Arxiv

0+阅读 · 2月2日

A Random Matrix Theory of Masked Self-Supervised Regression

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

11+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

5+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

【博士论文】Stein变分梯度下降与基于共识的优化：趋向于收敛分析与泛化，195页pdf

专知会员服务

20+阅读 · 2024年6月2日

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

【简明书册】(随机)梯度方法的收敛定理手册，68页pdf

专知会员服务

39+阅读 · 2023年1月31日

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

【干货书】随机优化方法在工程与运筹学中的应用，368页pdf

专知会员服务

77+阅读 · 2022年9月27日

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

【经典书】应用随机微分方程，324页pdf，Applied Stochastic Differential Equations

专知会员服务

60+阅读 · 2020年11月21日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

随机特征核近似综述: 算法与理论，Random Features for Kernel Approximation: A Survey in Algorithms, Theory, and Beyond

专知会员服务

33+阅读 · 2020年4月26日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

《应用随机微分方程》(Applied Stochastic Differential Equations)324页pdf新书分享

专知会员服务

44+阅读 · 2019年10月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

《应用随机微分方程》，324页pdf新书免费分享

《应用随机微分方程》，324页pdf新书免费分享

专知

20+阅读 · 2019年5月6日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

绝对干货 | 随机梯度下降算法综述

绝对干货 | 随机梯度下降算法综述

菜鸟的机器学习

15+阅读 · 2017年10月30日

精品公开课 | 随机梯度下降算法综述

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

相关论文

Mirror Descent on Riemannian Manifolds

Arxiv

0+阅读 · 3月18日

Convergence, Sticking and Escape: Stochastic Dynamics Near Critical Points in SGD

Arxiv

0+阅读 · 3月4日

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

Arxiv

0+阅读 · 3月2日

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Arxiv

0+阅读 · 2月18日

Natural Hypergradient Descent: Algorithm Design, Convergence Analysis, and Parallel Implementation

Arxiv

0+阅读 · 2月11日

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Arxiv

0+阅读 · 2月5日

Theory of Optimal Learning Rate Schedules and Scaling Laws for a Random Feature Model

Arxiv

0+阅读 · 2月4日

On the Convergence of Wasserstein Gradient Descent for Sampling

Arxiv

0+阅读 · 2月3日

A Random Matrix Theory Perspective on the Consistency of Diffusion Models

Arxiv

0+阅读 · 2月2日

A Random Matrix Theory of Masked Self-Supervised Regression

Arxiv

0+阅读 · 1月30日

相关基金

模糊收敛群及其在粗糙集中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

随机波动率模型的统计推断及数值解

国家自然科学基金

1+阅读 · 2015年12月31日

随机微分方程解的稳定性和矩有界性

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

统计收敛的测度理论与超滤子收敛

国家自然科学基金

0+阅读 · 2014年12月31日

随机系数和带跳的线性随机微分系统的H2/H∞控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于quantaloid-加载范畴的quantale值收敛理论

国家自然科学基金

1+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

协方差阵的推断及在方向数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员