位置编码融合的重要性：Transformer中位置编码融合的长度感知分析 (Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers) - 专知论文

会员服务 ·

0

融合 · 位置编码 · 序列 · 分析 · Transformer ·

Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers

翻译：位置编码融合的重要性：Transformer中位置编码融合的长度感知分析

Mohamed Amine Hallam,Kuo-Kun Tseng

from arxiv, 10 pages, 5 figures. Code and reproduction materials available on GitHub

Transformers require positional encodings to represent sequence order, yet most prior work focuses on designing new positional encodings rather than examining how positional information is fused with token embeddings. In this paper, we study whether the fusion mechanism itself affects performance, particularly in long-sequence settings. We conduct a controlled empirical study comparing three canonical fusion strategies--element-wise addition, concatenation with projection, and scalar gated fusion--under identical Transformer architectures, data splits, and random seeds. Experiments on three text classification datasets spanning short (AG News), medium (IMDB), and long (ArXiv) sequences show that fusion choice has negligible impact on short texts but produces consistent gains on long documents. To verify that these gains are structural rather than stochastic, we perform paired-seed analysis and cross-dataset comparison across sequence-length regimes. Additional experiments on the ArXiv dataset indicate that the benefit of learnable fusion generalizes across multiple positional encoding families. Finally, we explore a lightweight convolutional gating mechanism that introduces local inductive bias at the fusion level, evaluated on long documents only. Our results indicate that positional-encoding fusion is a non-trivial design choice for long-sequence Transformers and should be treated as an explicit modeling decision rather than a fixed default.

翻译：Transformer需要位置编码来表示序列顺序，然而大多数先前工作专注于设计新的位置编码，而非研究位置信息如何与词元嵌入融合。本文探讨融合机制本身是否影响性能，特别是在长序列场景下。我们在相同的Transformer架构、数据划分和随机种子条件下，对三种经典融合策略——逐元素加法、带投影的拼接和标量门控融合——进行了对照实证研究。在涵盖短序列（AG News）、中序列（IMDB）和长序列（ArXiv）的三个文本分类数据集上的实验表明，融合选择对短文本影响可忽略，但在长文档上能产生一致的性能提升。为验证这些提升源于结构而非随机因素，我们进行了配对种子分析和跨序列长度区间的跨数据集比较。在ArXiv数据集上的补充实验表明，可学习融合的益处可推广至多种位置编码族。最后，我们探索了一种轻量级卷积门控机制，该机制在融合层面引入局部归纳偏置，并仅在长文档上进行评估。我们的结果表明，位置编码融合是长序列Transformer中不可忽视的设计选择，应被视为显式建模决策而非固定默认选项。

0

相关内容

【CMU博士论文】长度可外推的Transformer，149页pdf

【CMU博士论文】长度可外推的Transformer，149页pdf

专知会员服务

27+阅读 · 2024年6月30日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

Graph Transformer近期进展

Graph Transformer近期进展

专知会员服务

65+阅读 · 2023年1月5日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality

Arxiv

0+阅读 · 2月2日

Cross-Fusion Distance: A Novel Metric for Measuring Fusion and Separability Between Data Groups in Representation Space

Arxiv

0+阅读 · 1月29日

Exploring Transformer Placement in Variational Autoencoders for Tabular Data Generation

Arxiv

0+阅读 · 1月28日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

An Introduction to Transformers

Arxiv

0+阅读 · 1月20日

Value-Aware Numerical Representations for Transformer Language Models

Arxiv

0+阅读 · 1月14日

Transformer Is Inherently a Causal Learner

Arxiv

0+阅读 · 1月9日

Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings

Arxiv

0+阅读 · 1月7日

Quantifying Positional Biases in Text Embedding Models

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

【CMU博士论文】长度可外推的Transformer，149页pdf

【CMU博士论文】长度可外推的Transformer，149页pdf

专知会员服务

27+阅读 · 2024年6月30日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

Graph Transformer近期进展

Graph Transformer近期进展

专知会员服务

65+阅读 · 2023年1月5日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

多图带你读懂 Transformers 的工作原理

多图带你读懂 Transformers 的工作原理

AI研习社

10+阅读 · 2019年3月18日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

相关论文

Efficient Long-Document Reranking via Block-Level Embeddings and Top-k Interaction Refinement

Arxiv

0+阅读 · 2月5日

Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality

Arxiv

0+阅读 · 2月2日

Cross-Fusion Distance: A Novel Metric for Measuring Fusion and Separability Between Data Groups in Representation Space

Arxiv

0+阅读 · 1月29日

Exploring Transformer Placement in Variational Autoencoders for Tabular Data Generation

Arxiv

0+阅读 · 1月28日

Depth-Width tradeoffs in Algorithmic Reasoning of Graph Tasks with Transformers

Arxiv

0+阅读 · 1月28日

An Introduction to Transformers

Arxiv

0+阅读 · 1月20日

Value-Aware Numerical Representations for Transformer Language Models

Arxiv

0+阅读 · 1月14日

Transformer Is Inherently a Causal Learner

Arxiv

0+阅读 · 1月9日

Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings

Arxiv

0+阅读 · 1月7日

Quantifying Positional Biases in Text Embedding Models

Arxiv

0+阅读 · 2025年12月31日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

高速率、高频谱效率码分多址系统地址码设计研究

国家自然科学基金

0+阅读 · 2015年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于机器视觉的索缆六自由度位移测量方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员