We introduce a differentiable random access memory module with $O(1)$ performance regardless of size, scaling to billions of entries. The design stores entries on points of a chosen lattice to calculate nearest neighbours of arbitrary points efficiently by exploiting symmetries. Augmenting a standard neural network architecture with a single memory layer based on this, we can scale the parameter count up to memory limits with negligible computational overhead, giving better accuracy at similar cost. On large language modelling tasks, these enhanced models with larger capacity significantly outperform the unmodified transformer baseline. We found continued scaling with memory size up to the limits tested.


翻译:我们引入了一个不同的随机存取内存模块, 其性能为1美元, 不论大小, 缩放至数十亿个条目。 在所选的宽边点上设计存储条目, 以便通过利用对称来有效计算任意点的近邻。 增强一个标准神经网络结构, 并以此为基础, 以单一的内存层为基础, 我们可以以可忽略的计算间接费用来将参数计算到内存极限, 从而以类似成本提高准确性。 在大型语言建模任务中, 这些容量较大的模型大大超过未修改的变压器基线。 我们发现, 内存大小持续到测试的极限 。

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2020年7月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2020年7月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年9月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Top
微信扫码咨询专知VIP会员