Any-order autoregressive models (AO-ARMs) offer a promising path toward efficient masked diffusion by enabling native key-value caching, but competitive performance has so far required two-stream attention, typically motivated as a means of decoupling token content from position. In this work, we argue that two-stream attention may be serving a more subtle role. We identify a structural-semantic tradeoff in any-order generation: the hidden representation at each step must simultaneously attend to semantically informative tokens for prediction and structurally recent tokens for summarization, objectives that compete for attention capacity in a single stream but can specialize across two streams. To isolate this tradeoff from position-content separation, we propose Decoupled RoPE, a modification to rotary position embeddings that provides target position information without revealing target content. Decoupled RoPE performs competitively at short sequence lengths--where semantic and structural proximity coincide--but degrades as sequence length increases and the two orderings diverge. These results suggest that the success of two-stream attention stems not merely from separating position from content, but from circumventing the deeper structural-semantic tradeoff inherent to any-order generation.


翻译:任意顺序自回归模型(AO-ARMs)通过支持原生键值缓存,为高效掩码扩散提供了一条有前景的路径,但迄今为止,具有竞争力的性能需要双流注意力机制,其动机通常被解释为将词元内容与位置解耦的一种手段。在本研究中,我们认为双流注意力机制可能扮演着更为微妙的角色。我们识别出任意顺序生成中存在一种结构-语义权衡:每一步的隐藏表示必须同时关注用于预测的语义信息丰富的词元,以及用于摘要的结构上最近的词元,这两个目标在单流注意力中会争夺注意力容量,但可以在双流中实现专业化。为了将这种权衡与位置-内容分离隔离开来,我们提出了解耦RoPE,这是一种对旋转位置编码的修改,它提供目标位置信息而不揭示目标内容。解耦RoPE在短序列长度下表现具有竞争力——此时语义邻近性与结构邻近性重合——但随着序列长度增加以及两种顺序发生偏离,其性能会下降。这些结果表明,双流注意力机制的成功不仅仅源于将位置与内容分离,更在于规避了任意顺序生成所固有的更深层次的结构-语义权衡。

0
下载
关闭预览

相关内容

扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
基于注意力机制的态势要素推荐技术
专知会员服务
27+阅读 · 2025年2月14日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
专知会员服务
48+阅读 · 2020年10月20日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
干货 | NLP中的self-attention【自-注意力】机制
机器学习算法与Python学习
12+阅读 · 2018年4月11日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Avey-B
Arxiv
0+阅读 · 2月17日
VIP会员
相关VIP内容
相关资讯
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
11+阅读 · 2019年6月16日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
入门 | 什么是自注意力机制?
机器之心
17+阅读 · 2018年8月19日
干货 | NLP中的self-attention【自-注意力】机制
机器学习算法与Python学习
12+阅读 · 2018年4月11日
干货!自然语言处理中的自注意力机制!
全球人工智能
11+阅读 · 2018年3月27日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员