Tools from random matrix theory have become central to deep learning theory, using spectral information to provide mechanisms for modeling generalization, robustness, scaling, and failure modes. While often capable of modeling empirical behavior, practical computations are limited by matrix size, often imposing a restriction to models that are too small to be realistic. This motivates the inference of properties of larger models from the behavior of smaller ones. Free decompression (FD) is a recently proposed method for extrapolating spectral information across matrix sizes, but its utility is currently limited by strong assumptions that preclude its implementation on more realistic machine learning (ML) models. We use algebraic spectral curve theory to provide a general FD methodology for spectral densities whose Stieltjes transform satisfies an algebraic relation, a modeling assumption that is more likely to hold in practice. This recasts FD as an evolution along spectral curves which can be readily integrated. Our framework enables the expansion of spectral densities that have multiple or multi-modal bulks, that exist at multiple scales, and that contain atoms, all characteristic of real-world data and popular ML models. We demonstrate the efficacy of our framework on models of interest in modern ML, including Hessian and activation matrices associated with neural networks and large-scale diffusion models.


翻译:随机矩阵理论中的工具已成为深度学习理论的核心,利用谱信息为建模泛化性、鲁棒性、扩展性和失效模式提供机制。尽管这些工具通常能够建模经验行为,但其实际计算受限于矩阵规模,常导致只能应用于规模过小而不切实际的模型。这推动了从较小模型的行为推断较大模型属性的研究。自由解压(FD)是近期提出的一种跨矩阵规模外推谱信息的方法,但其效用目前受到强假设的限制,使得该方法无法应用于更真实的机器学习(ML)模型。我们利用代数谱曲线理论,提出了一种通用的FD方法论,适用于其Stieltjes变换满足代数关系的谱密度——这一建模假设在实践中更可能成立。该方法将FD重新表述为沿谱曲线的演化,使其能够方便地进行积分。我们的框架能够扩展具有多峰或多模态主体、跨多重尺度分布、且包含原子的谱密度,这些特征正是真实世界数据与主流ML模型的特点。我们在现代ML领域的关键模型上演示了该框架的有效性,包括与神经网络及大规模扩散模型相关联的Hessian矩阵与激活矩阵。

0
下载
关闭预览

相关内容

【NeurIPS2023】矩阵压缩通过随机低秩和低精度分解
专知会员服务
31+阅读 · 2023年10月22日
【经典书】随机矩阵理论与无线网络,186和pdf
专知会员服务
52+阅读 · 2021年12月21日
专知会员服务
148+阅读 · 2021年8月12日
专知会员服务
121+阅读 · 2021年7月24日
【论文笔记】自注意力图池化
专知
82+阅读 · 2019年11月18日
那些值得推荐和收藏的线性代数学习资源
入门 | 这是一份文科生都能看懂的线性代数简介
机器之心
14+阅读 · 2018年3月31日
【干货】​深度学习中的线性代数
专知
21+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员