We introduce Kuramoto attention, a self-attention layer in which each hidden coordinate is an angle. The layer scores tokens by gated cosine similarity, attends over previous phase states, and updates each token by the tangent component of the attention-weighted circular mean. Because the values are the raw phase states, this update is exactly the Kuramoto coupling term $\sum_u A_{t,u}\sin(θ_u-θ_t)$, with the attention matrix acting as an adaptive, content-dependent coupling kernel. Equivalently, the gated score is a learned metric on the torus that selects which tokens couple, and the update pulls each token toward the circular mean of the tokens it selects, tightening their phase agreement. The same two ingredients, an invariant similarity score and an on-manifold mean, define such a layer on any compact group; the torus is the abelian case, where both are closed-form. The softmax weights solve an entropy-regularized phase-retrieval problem, and rotary position enters as a position-dependent phase drift in the score. On enwiki8 character-level language modeling, the layer trains as a functional language model whose bits-per-character stays close to a strong matched RoPE+SwiGLU transformer: within $0.02$ BPC at one million parameters ($1.637\pm0.010$ versus $1.616\pm0.004$) and level on the median at five million ($1.448$ versus $1.452$ over five seeds) with the transformer ahead on the mean ($1.468$ versus $1.456$). These experiments establish that the constrained geometric structure is a viable language model at this scale; the structure itself, and its synchronization reading, is the contribution. Ablations isolate the load-bearing components, and the result gives a compact bridge between self-attention and phase synchronization.


翻译:我们提出Kuramoto注意力,一种每个隐藏坐标均为角度的自注意力层。该层通过门控余弦相似度对词元评分,关注先前相位状态,并通过注意力加权圆均值的切向分量更新每个词元。由于值即为原始相位状态,该更新恰好是Kuramoto耦合项$\sum_u A_{t,u}\sin(θ_u-θ_t)$,其中注意力矩阵充当自适应、内容相关的耦合核。等价地,门控得分是环面上的学习度量,用于选择耦合的词元,而更新则将每个词元拉向其所选词元的圆均值,从而增强其相位一致性。这两个要素——不变相似度得分与流形上的均值——定义了任意紧群上的此类层;环面是阿贝尔情形,两者均为闭式。Softmax权重求解熵正则化相位检索问题,旋转位置编码则作为得分中与位置相关的相位漂移。在enwiki8字符级语言建模中,该层训练成为功能型语言模型,其每字符比特数接近强匹配的RoPE+SwiGLU Transformer:百万参数规模下相差0.02 BPC(1.637±0.010对比1.616±0.004),五百万参数下中位数持平(五次试验中1.448对比1.452),Transformer的均值略优(1.468对比1.456)。这些实验证明,受约束的几何结构在此规模下是可行的语言模型;而结构本身及其同步性解读方为贡献。消融实验分离了承重组件,结果在自注意力与相位同步之间建立了紧凑桥梁。

0
下载
关闭预览

相关内容

TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【AAAI2022】注意力机制的快速蒙特卡罗近似
专知会员服务
20+阅读 · 2022年2月5日
注意力机制综述
专知会员服务
210+阅读 · 2021年1月26日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
干货 | NLP中的self-attention【自-注意力】机制
机器学习算法与Python学习
12+阅读 · 2018年4月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
Arxiv
0+阅读 · 6月9日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员