We present GRAPE (Group Representational Position Encoding), a unified framework for positional encoding based on group actions. GRAPE unifies two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in $\operatorname{SO}(d)$ and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group $\mathrm{GL}$. In Multiplicative GRAPE, a position $n \in \mathbb{Z}$ (or $t \in \mathbb{R}$) acts as $\mathbf{G}(n) = \exp(n \, ω\, \mathbf{L})$ with a rank-2 skew-symmetric generator $\mathbf{L} \in \mathbb{R}^{d \times d}$, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the $d/2$ planes correspond to canonical coordinate pairs with a log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at $O(d)$ and $O(r d)$ cost per head, respectively. In Additive GRAPE, additive logits arise from rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Overall, GRAPE provides a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project page: https://github.com/model-architectures/GRAPE.


翻译:我们提出了GRAPE(群表示位置编码),一个基于群作用的统一位置编码框架。GRAPE统一了两类机制:(i) $\operatorname{SO}(d)$ 中的乘法旋转(乘法GRAPE)与 (ii) 由一般线性群 $\mathrm{GL}$ 中幂幺作用产生的加法对数偏置(加法GRAPE)。在乘法GRAPE中,位置 $n \in \mathbb{Z}$(或 $t \in \mathbb{R}$)通过 $\mathbf{G}(n) = \exp(n \, ω\, \mathbf{L})$ 作用,其中 $\mathbf{L} \in \mathbb{R}^{d \times d}$ 是一个秩为2的斜对称生成元,从而产生一个相对的、可组合的、保范的映射,并具有闭式矩阵指数。当 $d/2$ 个平面对应于具有对数均匀谱的规范坐标对时,可精确恢复RoPE。学习到的交换子空间与紧致的非交换混合分别以每个注意力头 $O(d)$ 和 $O(r d)$ 的代价,严格扩展了此几何结构以捕捉跨子空间的特征耦合。在加法GRAPE中,加法对数来自秩为1(或低秩)的幂幺作用,将ALiBi与遗忘Transformer(FoX)作为精确特例恢复,同时保留了精确的相对律与流式缓存能力。总体而言,GRAPE为长上下文模型中的位置几何提供了一个原则性的设计空间,将RoPE和ALiBi纳入为特例。项目页面:https://github.com/model-architectures/GRAPE。

0
下载
关闭预览

相关内容

《航空蜂群在区域探索中的最优路径规划》69页
专知会员服务
49+阅读 · 2024年1月15日
《集群概念和蜂群无人机系统》中文版
专知会员服务
198+阅读 · 2023年7月4日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
25+阅读 · 2021年5月20日
【硬核书】群论,Group Theory,135页pdf
专知会员服务
130+阅读 · 2020年6月25日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月25日
Arxiv
0+阅读 · 2月23日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
4+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
Seq2seq强化,Pointer Network简介
机器学习算法与Python学习
15+阅读 · 2018年12月8日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员