Generalization in Representation Models via Random Matrix Theory: Application to Recurrent Networks - 专知论文

会员服务 ·

0

表示 · 泛化 · 随机矩阵 · 矩阵理论 · 表示模型 ·

2025 年 11 月 4 日

Generalization in Representation Models via Random Matrix Theory: Application to Recurrent Networks

翻译：基于随机矩阵理论的表示模型泛化能力研究：在循环网络中的应用

Yessin Moakher,Malik Tiomoko,Cosme Louart,Zhenyu Liao

We first study the generalization error of models that use a fixed feature representation (frozen intermediate layers) followed by a trainable readout layer. This setting encompasses a range of architectures, from deep random-feature models to echo-state networks (ESNs) with recurrent dynamics. Working in the high-dimensional regime, we apply Random Matrix Theory to derive a closed-form expression for the asymptotic generalization error. We then apply this analysis to recurrent representations and obtain concise formula that characterize their performance. Surprisingly, we show that a linear ESN is equivalent to ridge regression with an exponentially time-weighted (''memory'') input covariance, revealing a clear inductive bias toward recent inputs. Experiments match predictions: ESNs win in low-sample, short-memory regimes, while ridge prevails with more data or long-range dependencies. Our methodology provides a general framework for analyzing overparameterized models and offers insights into the behavior of deep learning networks.

翻译：我们首先研究了采用固定特征表示（冻结中间层）后接可训练读出层的模型的泛化误差。该设定涵盖了一系列架构，从深度随机特征模型到具有循环动态的储备池网络（ESNs）。在高维体系下，我们应用随机矩阵理论推导出渐近泛化误差的闭式表达式。随后，我们将此分析应用于循环表示，并得到刻画其性能的简洁公式。令人惊讶的是，我们证明线性ESN等价于具有指数时间加权（“记忆”）输入协方差的岭回归，这揭示了对近期输入的明确归纳偏好。实验验证了预测结果：ESNs在低样本、短记忆机制中表现更优，而岭回归在数据量更大或存在长程依赖时更具优势。我们的方法论为分析过参数化模型提供了一个通用框架，并为深度学习网络的行为提供了新的见解。

0

相关内容

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

专知会员服务

14+阅读 · 2024年9月28日

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

专知会员服务

17+阅读 · 2024年5月16日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知会员服务

28+阅读 · 2022年8月6日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

12+阅读 · 2021年6月20日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知会员服务

28+阅读 · 2020年4月1日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

232+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

0+阅读 · 11分钟前

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

0+阅读 · 16分钟前

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 今天8:28

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

7+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

11+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

16+阅读 · 7月18日

相关VIP内容

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

【NeurIPS2024】作为零样本无损梯度压缩器的语言模型：走向通用神经参数先验模型

专知会员服务

14+阅读 · 2024年9月28日

【ICML2024】基于正则化的持续学习的统计理论

【ICML2024】基于正则化的持续学习的统计理论

专知会员服务

21+阅读 · 2024年6月11日

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

【ICML2024】TIMEX++: 通过信息瓶颈学习时间序列解释

专知会员服务

17+阅读 · 2024年5月16日

【ICML2022】熵因果推理:图的可辨识性

【ICML2022】熵因果推理:图的可辨识性

专知会员服务

28+阅读 · 2022年8月6日

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

【超越消息传递:图神经网络的物理启发范式】Beyond Message Passing: a Physics-Inspired Paradigm for Graph Neural Networks

专知会员服务

17+阅读 · 2022年5月10日

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ICCV2021】参数化对比学习

专知会员服务

33+阅读 · 2021年7月27日

【ICML2021】基于低秩重参数化的大规模私有学习

专知会员服务

12+阅读 · 2021年6月20日

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

【NeurIPS2020】可处理的反事实推理的深度结构因果模型

专知会员服务

49+阅读 · 2020年9月28日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知会员服务

28+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

印度精确打击与指挥架构的断层

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

相关资讯

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

【NeurIPS 2019】vGraph：联合节点检测与节点表示生成模型

专知

23+阅读 · 2019年12月21日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记

统计学习与视觉计算组

44+阅读 · 2018年4月25日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG

开放知识图谱

36+阅读 · 2018年3月30日

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

SSD: Single Shot MultiBox Detector 深度学习笔记之SSD物体检测模型

AI研习社

18+阅读 · 2017年8月31日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

232+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

相关基金

基于各向异性点光源的近场光度学三维重建问题研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

考虑材料分布不确定性的结构拓扑优化问题数学建模与求解方法

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

Jacobi行列式和Hilbert变换中的若干问题及应用

国家自然科学基金

0+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员