How many key-value associations can a $d\times d$ linear memory store? We show that the answer depends not only on the $d^2$ degrees of freedom in the memory matrix, but also on the retrieval criterion. In an isotropic Gaussian model for the stored pairs, we show that top-1 retrieval, where every signal must beat its largest distractor, requires the logarithmic model-size scale $d^2\asymp n\log n$. We prove that the correlation matrix memory construction, which stores associations by superposing key-target outer products, achieves this scale through a sharp phase transition, and that the same scaling is necessary for any linear memory. Thus the logarithm is the intrinsic extreme-value price of winner-take-all decoding. We next consider listwise retrieval, where the correct target need not be the unique top-scoring item but should remain among the strongest candidates. To formalize this regime, we propose the Tail-Average Margin (TAM), a convex upper-tail criterion that certifies inclusion of the correct target in a controlled candidate list. Under this listwise retrieval criterion, the capacity follows the quadratic scale $d^2\asymp n$. At load $n/d^2\toα$, we develop an exact asymptotic theory for the TAM empirical-risk minimizer through a two-parameter scalar variational principle. The theory has a rich phenomenology: in the ridgeless limit it yields a closed-form critical load separating satisfiable and unsatisfiable phases, and it predicts the limiting laws of true scores, competitor scores, margins, and percentile profiles. Finally, a small-tail extrapolation further leads to the conjectural sharp top-1 threshold $d^2\sim 2n\log n$.


翻译:一个 $d\times d$ 线性记忆能存储多少键值关联?我们证明答案不仅取决于记忆矩阵中的 $d^2$ 个自由度,还取决于检索准则。在存储对的各向同性高斯模型中,我们展示:顶一检索(每个信号必须击败其最大干扰项)要求对数模型规模尺度 $d^2\asymp n\log n$。我们证明,通过叠加键-目标外积来存储关联的相关矩阵记忆构造,通过尖锐相变达到此尺度,且任何线性记忆都需要相同的缩放比例。因此对数函数是胜者全得解码固有的极值代价。接下来我们考虑列表检索,其中正确目标不必是唯一最高分项,但应保持在最强候选者之列。为形式化此机制,我们提出尾部平均裕度(TAM),这是一种凸上尾准则,可确保正确目标被包含在受控候选列表中。在此列表检索准则下,容量遵循二次尺度 $d^2\asymp n$。当负载 $n/d^2\toα$ 时,我们通过双参数标量变分原理为 TAM 经验风险最小化器建立精确渐近理论。该理论具有丰富现象:在无脊极限下,它产生闭合形式的临界负载,区分可满足相与不可满足相,并预测真实分数、竞争者分数、裕度及百分位数分布的极限定律。最后,通过小尾外推进一步导出猜想性的尖锐顶一阈值 $d^2\sim 2n\log n$。

0
下载
关闭预览

相关内容

【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 2025年7月13日
专知会员服务
16+阅读 · 2021年6月4日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
那些值得推荐和收藏的线性代数学习资源
从信息瓶颈理论一瞥机器学习的“大一统理论”
【干货】​深度学习中的线性代数
专知
21+阅读 · 2018年3月30日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【ICML2025教程】联想记忆的现代方法
专知会员服务
15+阅读 · 2025年7月13日
专知会员服务
16+阅读 · 2021年6月4日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员