A feasibility and dynamics study of the Reservoir Attention Network (RAN), an architecture that injects a fixed, randomly-initialized reservoir into the mid-layer attention of a pretrained transformer to carry state across forward passes. Experiments span GPT-2 (124M, 355M) to Qwen2.5 (0.5B, 1.5B) on a single consumer GPU. The tasks are minimal probes chosen to isolate individual mechanisms; the broader always-alive agent vision is treated throughout as compute-limited future work, not a claim of this paper. The reservoir is left untrained (fixed random) by design: this isolates whether untrained recurrent dynamics alone suffice to carry usable cross-pass state, leaving trained recurrence as a complementary, more expensive direction.


翻译:本文对储层注意力网络(Reservoir Attention Network, RAN)进行可行性及动力学研究。该架构将一个固定且随机初始化的储层注入预训练Transformer的中间层注意力模块,以实现在不同前向传递间传递状态。实验覆盖从GPT-2(124M、355M)到Qwen2.5(0.5B、1.5B)模型,均在单个消费级GPU上完成。任务选取旨在隔离特定机制的极小探针任务;更为广泛的“持续活跃智能体”愿景被作为受计算资源限制的未来研究方向加以讨论,而非本文的核心主张。储层被刻意设计为未经训练(固定随机)的状态:此举旨在隔离未经训练的循环动力学是否足以传递可用的跨前向传递状态,从而将训练后的循环机制作为互补但代价更高的研究方向。

0
下载
关闭预览

相关内容

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
卷积神经网络中的注意力机制综述
专知会员服务
77+阅读 · 2021年10月22日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
84+阅读 · 2020年6月21日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
神经网络中的「注意力」是什么?怎么用?
北京思腾合力科技有限公司
17+阅读 · 2017年10月28日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
卷积神经网络中的注意力机制综述
专知会员服务
77+阅读 · 2021年10月22日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
84+阅读 · 2020年6月21日
相关资讯
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
基于注意力机制的图卷积网络
科技创新与创业
74+阅读 · 2017年11月8日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
神经网络中的「注意力」是什么?怎么用?
北京思腾合力科技有限公司
17+阅读 · 2017年10月28日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员