Rethinking the Role of Efficient Attention in Hybrid Architectures - 专知论文

会员服务 ·

0

混合 · 混合架构 · 上下文 · 长上下文 · 塑造 ·

Rethinking the Role of Efficient Attention in Hybrid Architectures

翻译：重新思考高效注意力在混合架构中的作用

Ziqing Qiao,Yinuo Xu,Chaojun Xiao,Zhou Su,Zihan Zhou,Yingfa Chen,Xiaoyue Xu,Xu Han,Zhiyuan Liu

from arxiv, 23 pages, 13 figures

Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.

翻译：现代语言模型日益采用混合架构，将全注意力与高效注意力模块（如滑动窗口注意力SWA和循环序列混合器）相结合。然而，这些高效模块如何塑造模型能力仍未被充分理解。为弥补这一空白，我们从缩放行为、机制分析和架构设计三个视角，对混合架构进行了系统性分析。首先，从缩放视角来看，我们发现高效注意力设计主要影响长上下文能力的涌现速度，而在充分训练下，不同的混合模型最终会收敛到可比的长上下文性能。其次，从机制层面，我们表明长距离检索主要由全注意力承担，而高效注意力则塑造其优化轨迹。这解释了我们称之为“大窗口懒惰”的反直觉现象：较大的SWA窗口可能会延迟全注意力层中检索头的形成。第三，在此机制的指导下，我们表明，仅对小型窗口SWA混合的全注意力层应用NoPE，能显著提升长上下文性能，同时对短上下文性能的影响微乎其微。

0

相关内容

《为国防与安全任务构建弹性自适应的混合空间架构》

《为国防与安全任务构建弹性自适应的混合空间架构》

专知会员服务

14+阅读 · 3月15日

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新《注意力机制与深度学习结合》综述论文

最新《注意力机制与深度学习结合》综述论文

专知会员服务

76+阅读 · 2021年6月17日

LinkedIn最新《注意力模型》综述论文大全，20页pdf

LinkedIn最新《注意力模型》综述论文大全，20页pdf

专知会员服务

138+阅读 · 2020年12月20日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

国内外混合式教学研究现状述评——基于混合式教学的分析框架

国内外混合式教学研究现状述评——基于混合式教学的分析框架

MOOC

53+阅读 · 2018年6月2日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混杂动力系统的回复性及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

ConSA: Controllable Sparsity in Hybrid Attention via Learnable Allocation

Arxiv

0+阅读 · 6月16日

Olmo Hybrid: From Theory to Practice and Back

Arxiv

0+阅读 · 6月15日

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Arxiv

0+阅读 · 6月15日

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture

Arxiv

0+阅读 · 6月13日

Depth-Attention: Cross-Layer Value Mixing for Language Models

Arxiv

0+阅读 · 6月13日

On Subquadratic Architectures: From Applications to Principles

Arxiv

0+阅读 · 6月10日

Dynamic Linear Attention

Arxiv

0+阅读 · 6月9日

Towards Tight Bounds for Streaming Attention

Arxiv

0+阅读 · 6月5日

The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《为国防与安全任务构建弹性自适应的混合空间架构》

《为国防与安全任务构建弹性自适应的混合空间架构》

专知会员服务

14+阅读 · 3月15日

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

【Google】高效Transformer综述，Efficient Transformers: A Survey

【Google】高效Transformer综述，Efficient Transformers: A Survey

专知会员服务

66+阅读 · 2022年3月17日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

最新《注意力机制与深度学习结合》综述论文

最新《注意力机制与深度学习结合》综述论文

专知会员服务

76+阅读 · 2021年6月17日

LinkedIn最新《注意力模型》综述论文大全，20页pdf

LinkedIn最新《注意力模型》综述论文大全，20页pdf

专知会员服务

138+阅读 · 2020年12月20日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

【Google】最新《高效Transformers》综述大全，Efficient Transformers: A Survey

专知会员服务

113+阅读 · 2020年9月17日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

机器之心

19+阅读 · 2019年4月10日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

专知

65+阅读 · 2019年4月8日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

专知

14+阅读 · 2018年11月16日

国内外混合式教学研究现状述评——基于混合式教学的分析框架

国内外混合式教学研究现状述评——基于混合式教学的分析框架

MOOC

53+阅读 · 2018年6月2日

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

【AAAI 2018】多种注意力机制互补完成VQA（视觉问答），清华大学、香港中文大学等团队最新工作

专知

22+阅读 · 2017年12月17日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

ConSA: Controllable Sparsity in Hybrid Attention via Learnable Allocation

Arxiv

0+阅读 · 6月16日

Olmo Hybrid: From Theory to Practice and Back

Arxiv

0+阅读 · 6月15日

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Arxiv

0+阅读 · 6月15日

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture

Arxiv

0+阅读 · 6月13日

Depth-Attention: Cross-Layer Value Mixing for Language Models

Arxiv

0+阅读 · 6月13日

On Subquadratic Architectures: From Applications to Principles

Arxiv

0+阅读 · 6月10日

Dynamic Linear Attention

Arxiv

0+阅读 · 6月9日

Towards Tight Bounds for Streaming Attention

Arxiv

0+阅读 · 6月5日

The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity

Arxiv

0+阅读 · 5月7日

相关基金

基于加速网的光电混合三维互连架构设计方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

广义混杂系统的降阶分析与应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

混杂动力系统的回复性及相关问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员