Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.


翻译:测试时训练(TTT)采用KV绑定作为序列建模层,通常被解释为一种在线元学习形式,即在测试时记忆键值映射关系。然而,我们的分析揭示了多个与该记忆型解释相矛盾的现象。基于这些发现,我们重新审视了TTT的数学表述,证明一大类TTT架构可表达为一种学习型线性注意力算子。这一视角不仅能解释先前令人困惑的模型行为,还带来多重实际优势:它支持基于原理的架构简化,允许在保持性能的同时提升效率的完全并行化表述,并将多样化的TTT变体系统性地归结为标准线性注意力形式。总体而言,我们的研究将TTT重新定义为具有增强表征能力的学习型线性注意力机制,而非测试时记忆过程。

0
下载
关闭预览

相关内容

注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月5日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
13+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
8+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
6+阅读 · 4月12日
相关VIP内容
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
相关资讯
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员