Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias - 专知论文

会员服务 ·

0

偏置 · 缩放 · 闭式 · 参数化 · 线性回归 ·

Closed-form $\ell_r$ norm scaling with data for overparameterized linear regression and diagonal linear networks under $\ell_p$ bias

翻译：闭式$\ell_r$范数缩放：过参数化线性回归与对角线性网络在$\ell_p$偏置下的数据依赖性研究

Shuofeng Zhang,Ard Louis

For overparameterized linear regression with isotropic Gaussian design and minimum-$\ell_p$ interpolator $p\in(1,2]$, we give a unified, high-probability characterization for the scaling of the family of parameter norms $ \\{ \lVert \widehat{w_p} \rVert_r \\}_{r \in [1,p]} $ with sample size. We solve this basic, but unresolved question through a simple dual-ray analysis, which reveals a competition between a signal *spike* and a *bulk* of null coordinates in $X^\top Y$, yielding closed-form predictions for (i) a data-dependent transition $n_\star$ (the "elbow"), and (ii) a universal threshold $r_\star=2(p-1)$ that separates $\lVert \widehat{w_p} \rVert_r$'s which plateau from those that continue to grow with an explicit exponent. This unified solution resolves the scaling of *all* $\ell_r$ norms within the family $r\in [1,p]$ under $\ell_p$-biased interpolation, and explains in one picture which norms saturate and which increase as $n$ grows. We then study diagonal linear networks (DLNs) trained by gradient descent. By calibrating the initialization scale $α$ to an effective $p_{\mathrm{eff}}(α)$ via the DLN separable potential, we show empirically that DLNs inherit the same elbow/threshold laws, providing a predictive bridge between explicit and implicit bias. Given that many generalization proxies depend on $\lVert \widehat {w_p} \rVert_r$, our results suggest that their predictive power will depend sensitively on which $l_r$ norm is used.

翻译：针对各向同性高斯设计且采用最小$\ell_p$插值（$p\in(1,2]$）的过参数化线性回归问题，我们给出了参数范数族$ \{ \lVert \widehat{w_p} \rVert_r \}_{r \in [1,p]} $随样本量缩放的高度概率化统一刻画。通过简单的对偶射线分析，我们解决了这一基础但悬而未决的问题，揭示了$X^\top Y$中信号"尖峰"与零坐标"体"之间的竞争机制，从而得到以下预测的闭式表达式：(i) 数据依赖的转变点$n_\star$（即"拐点"）；(ii) 区分$\lVert \widehat{w_p} \rVert_r$是否达到平稳的普适阈值$r_\star=2(p-1)$——低于该阈值的范数持续增长且具有显式指数。这一统一解阐明了在$\ell_p$偏置插值下族系$r\in [1,p]$中**所有**$\ell_r$范数的缩放规律，并直观解释了随着$n$增大哪些范数趋于饱和、哪些持续增长。我们进一步研究由梯度下降训练的对角线性网络（DLNs）。通过将初始化尺度$\alpha$校准为DLN可分势函数作用下的有效$p_{\mathrm{eff}}(\alpha)$，实验证明DLNs继承了相同的拐点/阈值法则，从而构建了显式偏置与隐式偏置之间的预测桥梁。鉴于许多泛化代理量依赖于$\lVert \widehat{w_p} \rVert_r$，我们的结果表明其预测能力将敏感地取决于所采用的$\ell_r$范数类型。

0

相关内容

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

【ICML2024】深度过参数低秩学习与适应中的可压缩动力学

【ICML2024】深度过参数低秩学习与适应中的可压缩动力学

专知会员服务

19+阅读 · 2024年6月8日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知会员服务

19+阅读 · 2022年2月8日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

数据分析师应该知道的16种回归技术：弹性网络回归

数据分析师应该知道的16种回归技术：弹性网络回归

数萃大数据

91+阅读 · 2018年8月16日

从点到线：逻辑回归到条件随机场

从点到线：逻辑回归到条件随机场

夕小瑶的卖萌屋

15+阅读 · 2017年7月22日

基于滑模技术的线性参数变化系统的容错控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

陆地碳数据同化中的模型“异参同效”问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Wild bootstrap for mean response inference in functional linear regression models

Arxiv

0+阅读 · 6月15日

Optimal and Provable Calibration in High-Dimensional Binary Classification: Angular Calibration and Platt Scaling

Arxiv

0+阅读 · 6月7日

Principal Components Decomposition of Fraction of Variance Explained in High Dimensional Linear Models with Strong Correlation

Arxiv

0+阅读 · 6月2日

Shallow ReLU$^s$ Networks in $L^p$-Type and Sobolev Spaces: Approximation and Path-Norm Controlled Generalization

Arxiv

0+阅读 · 5月21日

Linear Functional Testing with General Loadings in Sparse Regression: Separation Rates and Computational Barriers

Arxiv

0+阅读 · 5月20日

Dependent Multiplicities in Dependent Linear Type Theory

Arxiv

0+阅读 · 5月19日

$p$-adic Linear Regression for Random Sampling with Digitwise Noise

Arxiv

0+阅读 · 5月15日

On Solving Problems of Substantially Super-linear Complexity in $N^{o(1)}$ Rounds in the MPC Model

Arxiv

0+阅读 · 5月5日

Linear Regression from 1-bit Quantized Data

Arxiv

0+阅读 · 3月30日

Post-selection inference in generalized linear models via parametric programming

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

22+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

【ICML2024】深度过参数低秩学习与适应中的可压缩动力学

【ICML2024】深度过参数低秩学习与适应中的可压缩动力学

专知会员服务

19+阅读 · 2024年6月8日

【ICLR2022】基于任务相关性的元学习泛化边界

【ICLR2022】基于任务相关性的元学习泛化边界

专知会员服务

19+阅读 · 2022年2月8日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知会员服务

77+阅读 · 2020年6月28日

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

【KDD2020】CAST:一种基于相关关系的多尺度数据自适应光谱聚类算法,CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data

专知会员服务

20+阅读 · 2020年6月11日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

【NeurIPS2019|杰出新方向论文奖】统一收敛可能无法解释深度学习中的泛化性（Uniform convergence maybe unable to explain generalization in deep learning）

专知会员服务

13+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

【ICML2020】拉普拉斯正则化小样本学习，Laplacian Regularized Few-Shot Learning

专知

27+阅读 · 2020年7月3日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

数据分析师应该知道的16种回归技术：偏最小二乘回归

数据分析师应该知道的16种回归技术：偏最小二乘回归

数萃大数据

14+阅读 · 2018年8月29日

数据分析师应该知道的16种回归技术：弹性网络回归

数据分析师应该知道的16种回归技术：弹性网络回归

数萃大数据

91+阅读 · 2018年8月16日

从点到线：逻辑回归到条件随机场

从点到线：逻辑回归到条件随机场

夕小瑶的卖萌屋

15+阅读 · 2017年7月22日

相关论文

Wild bootstrap for mean response inference in functional linear regression models

Arxiv

0+阅读 · 6月15日

Optimal and Provable Calibration in High-Dimensional Binary Classification: Angular Calibration and Platt Scaling

Arxiv

0+阅读 · 6月7日

Principal Components Decomposition of Fraction of Variance Explained in High Dimensional Linear Models with Strong Correlation

Arxiv

0+阅读 · 6月2日

Shallow ReLU$^s$ Networks in $L^p$-Type and Sobolev Spaces: Approximation and Path-Norm Controlled Generalization

Arxiv

0+阅读 · 5月21日

Linear Functional Testing with General Loadings in Sparse Regression: Separation Rates and Computational Barriers

Arxiv

0+阅读 · 5月20日

Dependent Multiplicities in Dependent Linear Type Theory

Arxiv

0+阅读 · 5月19日

$p$-adic Linear Regression for Random Sampling with Digitwise Noise

Arxiv

0+阅读 · 5月15日

On Solving Problems of Substantially Super-linear Complexity in $N^{o(1)}$ Rounds in the MPC Model

Arxiv

0+阅读 · 5月5日

Linear Regression from 1-bit Quantized Data

Arxiv

0+阅读 · 3月30日

Post-selection inference in generalized linear models via parametric programming

Arxiv

0+阅读 · 3月25日

相关基金

基于滑模技术的线性参数变化系统的容错控制方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

对称分类、整体群表示和不变参数化格式研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

陆地碳数据同化中的模型“异参同效”问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于图像特征的接收函数各向异性反演研究

国家自然科学基金

0+阅读 · 2014年12月31日

多元数据与函数型数据的序贯检验方法与控制图研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员