Position Encoding with Random Float Sampling Enhances Length Generalization of Transformers - 专知论文

会员服务 ·

0

泛化 · 位置编码 · 编码方法 · 预训练 · Transformer ·

Position Encoding with Random Float Sampling Enhances Length Generalization of Transformers

翻译：随机浮点数采样增强Transformer长度泛化的位置编码方法

Atsushi Shimizu,Shohei Taniguchi,Yutaka Matsuo

from arxiv, To appear at EACL 2026

Length generalization is the ability of language models to maintain performance on inputs longer than those seen during pretraining. In this work, we introduce a simple yet powerful position encoding (PE) strategy, Random Float Sampling (RFS), that generalizes well to lengths unseen during pretraining or fine-tuning. In particular, instead of selecting position indices from a predefined discrete set, RFS uses randomly sampled continuous values, thereby avoiding out-of-distribution (OOD) issues on unseen lengths by exposing the model to diverse indices during training. Since assigning indices to tokens is a common and fundamental procedure in widely used PEs, the advantage of RFS can easily be incorporated into, for instance, the absolute sinusoidal encoding, RoPE, and ALiBi. Experiments corroborate its effectiveness by showing that RFS results in superior performance in length generalization tasks as well as zero-shot commonsense reasoning benchmarks.

翻译：长度泛化是指语言模型在处理比预训练时所见更长的输入时保持性能的能力。本研究提出了一种简单而有效的位置编码策略——随机浮点数采样，该策略能够很好地泛化到预训练或微调阶段未见过的长度。具体而言，RFS不使用预定义的离散集合中的位置索引，而是采用随机采样的连续值，通过在训练过程中让模型接触多样化的索引，从而避免在未见长度上出现分布外问题。由于为词元分配索引是广泛使用的位置编码方法中常见且基础的操作，RFS的优势可以轻松融入诸如绝对正弦编码、RoPE和ALiBi等编码方案。实验证实了该方法的有效性，结果表明RFS在长度泛化任务以及零样本常识推理基准测试中均取得了更优的性能。

0

相关内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【CMU博士论文】长度可外推的Transformer，149页pdf

【CMU博士论文】长度可外推的Transformer，149页pdf

专知会员服务

27+阅读 · 2024年6月30日

【博士论文】基于信息论的泛化理论方法，274页pdf

【博士论文】基于信息论的泛化理论方法，274页pdf

专知会员服务

54+阅读 · 2024年6月3日

【博士论文】信息论视角下的泛化理论方法，274页pdf

【博士论文】信息论视角下的泛化理论方法，274页pdf

专知会员服务

51+阅读 · 2024年4月28日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

最新综述：速览Transformer长文本建模研究进展

最新综述：速览Transformer长文本建模研究进展

专知会员服务

46+阅读 · 2023年3月15日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Improving Sampling for Masked Diffusion Models via Information Gain

Arxiv

0+阅读 · 3月18日

Fractional Programming for Stochastic Precoding over Generalized Fading Channels

Arxiv

0+阅读 · 3月9日

Stochastic Localization via Iterative Posterior Sampling

Arxiv

0+阅读 · 2月20日

Improving Sampling for Masked Diffusion Models via Information Gain

Arxiv

0+阅读 · 2月20日

Lattice Random Walk Discretisations of Stochastic Differential Equations

Arxiv

0+阅读 · 2月17日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Step-Size Stability in Stochastic Optimization: A Theoretical Perspective

Arxiv

0+阅读 · 2月10日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Supervised Learning as Lossy Compression: Characterizing Generalization and Sample Complexity via Finite Blocklength Analysis

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【CMU博士论文】深度学习中泛化的量化、理解与改进

【CMU博士论文】深度学习中泛化的量化、理解与改进

专知会员服务

21+阅读 · 2025年10月11日

深度学习中泛化的量化、理解与改进

深度学习中泛化的量化、理解与改进

专知会员服务

17+阅读 · 2025年9月13日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

【CMU博士论文】长度可外推的Transformer，149页pdf

【CMU博士论文】长度可外推的Transformer，149页pdf

专知会员服务

27+阅读 · 2024年6月30日

【博士论文】基于信息论的泛化理论方法，274页pdf

【博士论文】基于信息论的泛化理论方法，274页pdf

专知会员服务

54+阅读 · 2024年6月3日

【博士论文】信息论视角下的泛化理论方法，274页pdf

【博士论文】信息论视角下的泛化理论方法，274页pdf

专知会员服务

51+阅读 · 2024年4月28日

Transformer的无限之路：位置编码视角下的长度外推综述

Transformer的无限之路：位置编码视角下的长度外推综述

专知会员服务

44+阅读 · 2024年1月17日

最新综述：速览Transformer长文本建模研究进展

最新综述：速览Transformer长文本建模研究进展

专知会员服务

46+阅读 · 2023年3月15日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Improving Sampling for Masked Diffusion Models via Information Gain

Arxiv

0+阅读 · 3月18日

Fractional Programming for Stochastic Precoding over Generalized Fading Channels

Arxiv

0+阅读 · 3月9日

Stochastic Localization via Iterative Posterior Sampling

Arxiv

0+阅读 · 2月20日

Improving Sampling for Masked Diffusion Models via Information Gain

Arxiv

0+阅读 · 2月20日

Lattice Random Walk Discretisations of Stochastic Differential Equations

Arxiv

0+阅读 · 2月17日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Step-Size Stability in Stochastic Optimization: A Theoretical Perspective

Arxiv

0+阅读 · 2月10日

Transformers Are Born Biased: Structural Inductive Biases at Random Initialization and Their Practical Consequences

Arxiv

0+阅读 · 2月5日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Supervised Learning as Lossy Compression: Characterizing Generalization and Sample Complexity via Finite Blocklength Analysis

Arxiv

0+阅读 · 2月4日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

随机方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员