Sequence Repetition Enhances Token Embeddings and Improves Sequence Labeling with Decoder-only Language Models - 专知论文

会员服务 ·

0

解码 · 序列 · 词元 · 嵌入 · SR ·

Sequence Repetition Enhances Token Embeddings and Improves Sequence Labeling with Decoder-only Language Models

翻译：序列重复增强词元嵌入并提升仅解码器语言模型的序列标注性能

Matija Luka Kukić,Marko Čuljak,David Dukić,Martin Tutek,Jan Šnajder

from arxiv, Accepted at EACL 2026 Findings

Modern language models (LMs) are trained in an autoregressive manner, conditioned only on the prefix. In contrast, sequence labeling (SL) tasks assign labels to each individual input token, naturally benefiting from bidirectional context. This discrepancy has historically led SL to rely on inherently bidirectional encoder-only models. However, the rapid development of decoder-only models has raised the question of whether they can be adapted to SL. While causal mask removal has emerged as a viable technique for adapting decoder-only models to leverage the full context for SL, it requires considerable changes to the base model functionality. In this work, we explore sequence repetition (SR) as a less invasive alternative for enabling bidirectionality in decoder-only models. Through fine-tuning experiments, we show that SR inherently makes decoders bidirectional, improving the quality of token-level embeddings and surpassing encoders and unmasked decoders. Contrary to earlier claims, we find that increasing the number of repetitions does not degrade SL performance. Finally, we demonstrate that embeddings from intermediate layers are highly effective for SR, comparable to those from final layers, while being significantly more efficient to compute. Our findings underscore that SR alleviates the structural limitations of decoders, enabling more efficient and adaptable LMs and broadening their applicability to other token-level tasks.

翻译：现代语言模型（LMs）以自回归方式进行训练，仅以前缀为条件。相比之下，序列标注（SL）任务为每个输入词元分配标签，天然受益于双向上下文。这种差异历来导致SL依赖于本质上是双向的仅编码器模型。然而，仅解码器模型的快速发展引发了其能否适应SL任务的疑问。虽然因果掩码移除已成为一种可行的技术，用于使仅解码器模型适应SL任务以利用完整上下文，但这需要对基础模型功能进行大量修改。在本工作中，我们探索序列重复（SR）作为一种侵入性更小的替代方案，以实现仅解码器模型的双向性。通过微调实验，我们证明SR本质上使解码器具有双向性，提升了词元级嵌入的质量，并超越了编码器及无掩码解码器。与早期观点相反，我们发现增加重复次数并不会降低SL性能。最后，我们证明了中间层的嵌入对于SR极为有效，其性能与最终层嵌入相当，同时计算效率显著更高。我们的研究结果强调，SR缓解了解码器的结构限制，使得语言模型更高效、更适应性强，并拓宽了其适用于其他词元级任务的范围。

0

相关内容

【MIT博士论文】语言模型的推理时学习算法

【MIT博士论文】语言模型的推理时学习算法

专知会员服务

30+阅读 · 2025年12月24日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

专知会员服务

45+阅读 · 2024年11月11日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

AI科技评论

20+阅读 · 2019年9月24日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 1月28日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 1月27日

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

Arxiv

0+阅读 · 1月22日

ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation

Arxiv

0+阅读 · 1月14日

SemPA: Improving Sentence Embeddings of Large Language Models through Semantic Preference Alignment

Arxiv

0+阅读 · 1月8日

Advancing Language Models for Code-related Tasks

Arxiv

0+阅读 · 1月8日

Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series

Arxiv

0+阅读 · 1月7日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

【MIT博士论文】语言模型的推理时学习算法

【MIT博士论文】语言模型的推理时学习算法

专知会员服务

30+阅读 · 2025年12月24日

【博士论文】面向下游任务的语言模型优化：一种后训练视角

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

24+阅读 · 2025年7月6日

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

【斯坦福博士论文】具备检索增强与条件计算能力的语言模型

专知会员服务

15+阅读 · 2025年7月4日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

大语言模型在序列推荐中的应用

大语言模型在序列推荐中的应用

专知会员服务

19+阅读 · 2024年11月12日

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

从词向量到多模态嵌入：大型语言模型的技术、应用及未来方向

专知会员服务

45+阅读 · 2024年11月11日

大型语言模型增强强化学习综述:概念、分类和方法

大型语言模型增强强化学习综述:概念、分类和方法

专知会员服务

57+阅读 · 2024年4月4日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

基于深度神经网络的关键词提取，Keywords extraction with DNN

基于深度神经网络的关键词提取，Keywords extraction with DNN

专知

10+阅读 · 2020年5月7日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

EMNLP2019 | 南大NLP，基于细粒度知识融合的序列标注领域适应

AI科技评论

20+阅读 · 2019年9月24日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

相关论文

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Arxiv

0+阅读 · 2月4日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 1月28日

One Token Is Enough: Improving Diffusion Language Models with a Sink Token

Arxiv

0+阅读 · 1月27日

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

Arxiv

0+阅读 · 1月22日

ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation

Arxiv

0+阅读 · 1月14日

SemPA: Improving Sentence Embeddings of Large Language Models through Semantic Preference Alignment

Arxiv

0+阅读 · 1月8日

Advancing Language Models for Code-related Tasks

Arxiv

0+阅读 · 1月8日

Context-Alignment: Activating and Enhancing LLM Capabilities in Time Series

Arxiv

0+阅读 · 1月7日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

相关基金

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员