Tensor Product Attention Is All You Need - 专知论文

会员服务 ·

0

张量积 · 序列 · 内存 · 注意力机制 · 分解 ·

Tensor Product Attention Is All You Need

翻译：张量积注意力机制：您所需的一切

Yifan Zhang,Yifeng Liu,Huizhuo Yuan,Zhen Qin,Yang Yuan,Quanquan Gu,Andrew Chi-Chih Yao

from arxiv, Published in NeurIPS 2025 (Spotlight); Project Page: https://github.com/tensorgi/TPA

Scaling language models to handle longer input sequences typically necessitates large key-value (KV) caches, resulting in substantial memory overhead during inference. In this paper, we propose Tensor Product Attention (TPA), a novel attention mechanism that uses tensor decompositions to represent queries, keys, and values compactly, substantially shrinking the KV cache size at inference time. By factorizing these representations into contextual low-rank components and seamlessly integrating with Rotary Position Embedding (RoPE), TPA achieves improved model quality alongside memory efficiency. Based on TPA, we introduce the Tensor ProducT ATTenTion Transformer (T6), a new model architecture for sequence modeling. Through extensive empirical evaluation on language modeling tasks, we demonstrate that T6 surpasses or matches the performance of standard Transformer baselines including Multi-Head Attention (MHA), Multi-Query Attention (MQA), Grouped-Query Attention (GQA), and Multi-Head Latent Attention (MLA) across various metrics, including perplexity and a range of established evaluation benchmarks. Notably, TPA's memory efficiency and computational efficiency at decoding stage enables processing longer sequences under fixed resource constraints, addressing a critical scalability challenge in modern language models. Project Page: https://github.com/tensorgi/TPA.

翻译：扩展语言模型以处理更长输入序列通常需要大型键值（KV）缓存，导致推理过程中产生显著的内存开销。本文提出张量积注意力（TPA），一种新颖的注意力机制，利用张量分解紧凑地表示查询、键和值，从而在推理时大幅压缩KV缓存大小。通过将这些表示分解为上下文低秩分量，并与旋转位置编码（RoPE）无缝集成，TPA在提升模型质量的同时实现了内存效率。基于TPA，我们引入了张量积注意力Transformer（T6），一种用于序列建模的新模型架构。通过在语言建模任务上进行广泛的实证评估，我们证明T6在包括困惑度和一系列既定评估基准在内的各项指标上，均超越或匹配了标准Transformer基线模型，包括多头注意力（MHA）、多查询注意力（MQA）、分组查询注意力（GQA）和多头潜在注意力（MLA）。值得注意的是，TPA在解码阶段的内存效率和计算效率，使得在固定资源约束下能够处理更长的序列，解决了现代语言模型中的一个关键可扩展性挑战。项目页面：https://github.com/tensorgi/TPA。

0

相关内容

张量积

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

最新《注意力机制》教程，112页ppt

专知会员服务

326+阅读 · 2020年11月24日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【南洋理工大学课程】注意力神经网络，Attention Neural Networks，附78页PPT

【南洋理工大学课程】注意力神经网络，Attention Neural Networks，附78页PPT

专知会员服务

157+阅读 · 2019年11月9日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

内感受性与焦虑的相互作用及其神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

结构张量与相位一致性联合约束的倾斜立体影像直线特征分级匹配

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月3日

Poly-attention: a general scheme for higher-order self-attention

Arxiv

0+阅读 · 2月2日

S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference

Arxiv

0+阅读 · 1月28日

Beyond Classical Attention: Quantum Attention for Scalable Computation

Arxiv

0+阅读 · 1月27日

Training Tensor Attention Efficiently: From Cubic to Almost Linear Time

Arxiv

0+阅读 · 1月25日

MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models

Arxiv

0+阅读 · 1月16日

Lil: Less is Less When Applying Post-Training Sparse-Attention Algorithms in Long-Decode Stage

Arxiv

0+阅读 · 1月15日

Attention Needs to Focus: A Unified Perspective on Attention Allocation

Arxiv

0+阅读 · 1月7日

Training-free Context-adaptive Attention for Efficient Long Context Modeling

Arxiv

0+阅读 · 1月2日

Trellis: Learning to Compress Key-Value Memory in Attention Models

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

注意力机制

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

6+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

4+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

9+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

8+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新「注意力机制」大综述论文，66页pdf569篇文献

最新「注意力机制」大综述论文，66页pdf569篇文献

专知会员服务

210+阅读 · 2021年4月2日

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

最新《注意力机制》教程，112页ppt

专知会员服务

326+阅读 · 2020年11月24日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

【南洋理工大学课程】注意力神经网络，Attention Neural Networks，附78页PPT

【南洋理工大学课程】注意力神经网络，Attention Neural Networks，附78页PPT

专知会员服务

157+阅读 · 2019年11月9日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

Deep Reading | 从0到1再读注意力机制，此文必收藏！

Deep Reading | 从0到1再读注意力机制，此文必收藏！

AI100

17+阅读 · 2019年3月11日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

人工智能头条

16+阅读 · 2017年11月2日

相关论文

PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers

Arxiv

0+阅读 · 2月3日

Poly-attention: a general scheme for higher-order self-attention

Arxiv

0+阅读 · 2月2日

S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference

Arxiv

0+阅读 · 1月28日

Beyond Classical Attention: Quantum Attention for Scalable Computation

Arxiv

0+阅读 · 1月27日

Training Tensor Attention Efficiently: From Cubic to Almost Linear Time

Arxiv

0+阅读 · 1月25日

MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models

Arxiv

0+阅读 · 1月16日

Lil: Less is Less When Applying Post-Training Sparse-Attention Algorithms in Long-Decode Stage

Arxiv

0+阅读 · 1月15日

Attention Needs to Focus: A Unified Perspective on Attention Allocation

Arxiv

0+阅读 · 1月7日

Training-free Context-adaptive Attention for Efficient Long Context Modeling

Arxiv

0+阅读 · 1月2日

Trellis: Learning to Compress Key-Value Memory in Attention Models

Arxiv

0+阅读 · 2025年12月29日

相关基金

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

内感受性与焦虑的相互作用及其神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

结构张量与相位一致性联合约束的倾斜立体影像直线特征分级匹配

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员