ConSA: Controllable Sparsity in Hybrid Attention via Learnable Allocation - 专知论文

会员服务 ·

0

稀疏 · 滑动窗口 · 混合 · 可控 · 粒度 ·

ConSA: Controllable Sparsity in Hybrid Attention via Learnable Allocation

翻译：ConSA：基于可学习分配的可控稀疏混合注意力

Yao Chen,Yinqi Yang,Junyuan Shang,Xiangzhao Hao,Simeng Zhang,Yilong Chen,Tingwen Liu,Shuohuan Wang,Dianhai Yu

Hybrid architectures combining full attention (FA) and sliding-window attention (SWA) are a promising paradigm for efficient LLM inference. However, existing methods typically rely on hand-crafted rules or simple post-hoc heuristics for FA/SWA allocation and offer limited analysis of the attention behaviors underlying these designs. We propose Controllable Sparsity in Hybrid Attention (ConSA), a framework that learns optimal FA/SWA assignment under a user-specified sparsity target. ConSA employs L0 regularization to learn binary masks selecting between FA and SWA for each attention unit, while an augmented Lagrangian constraint enforces the target sparsity at either layer or KV-head granularity. We evaluate ConSA on two LLMs at the 0.6B and 1.7B scales. Learned allocations consistently outperform rule-based baselines, with KV-head-wise allocation yielding clear gains over layer-wise allocation. The learned patterns place SWA in the bottom layers and concentrate FA into contiguous middle-layer blocks, diverging from evenly interleaved patterns in rule-based methods. This structure persists across model scales, sparsity levels, and allocation granularities, revealing a fine-grained spectrum of intrinsic attention behaviors that underlies the learned allocation.

翻译：结合全注意力和滑动窗口注意力的混合架构是高效大语言模型推理的一种有前途范式。然而，现有方法通常依赖人工设计的规则或简单的后验启发式方法进行全注意力/滑动窗口注意力的分配，并且对这些设计背后的注意力行为分析有限。我们提出可控稀疏混合注意力（ConSA），这是一个在用户指定的稀疏度目标下学习最优全注意力/滑动窗口注意力分配的框架。ConSA利用L0正则化学习为每个注意力单元选择全注意力或滑动窗口注意力的二元掩码，同时通过增广拉格朗日约束在层或KV头粒度上强制执行目标稀疏度。我们在0.6B和1.7B参数规模的两个大语言模型上评估了ConSA。学习得到的分配一致优于基于规则的基线，其中基于KV头的分配相比逐层分配展现出明显优势。学习到的模式将滑动窗口注意力置于底层，并将全注意力集中到连续的中间层块中，这与基于规则方法中均匀交错模式形成对比。该结构在模型规模、稀疏度水平和分配粒度上保持稳定，揭示了作为学习分配基础的细粒度内在注意力行为谱系。

0

相关内容

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【ICML2022】基于随机注意力机制的可解释和广义图学习

【ICML2022】基于随机注意力机制的可解释和广义图学习

专知会员服务

33+阅读 · 2022年8月7日

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

专知会员服务

46+阅读 · 2022年6月29日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

注意力机制综述

注意力机制综述

专知会员服务

210+阅读 · 2021年1月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

专知会员服务

32+阅读 · 2020年2月24日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

人工智能学家

30+阅读 · 2018年11月17日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于P300和SSVEP的混合异步脑机接口及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding

Arxiv

0+阅读 · 6月16日

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Arxiv

0+阅读 · 6月15日

Rethinking the Role of Efficient Attention in Hybrid Architectures

Arxiv

0+阅读 · 6月13日

CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation

Arxiv

0+阅读 · 6月13日

MiniMax Sparse Attention

Arxiv

0+阅读 · 6月12日

LASA: A Weak Supervision Method for Open-Vocabulary Scene Sketch Semantic Segmentation

Arxiv

0+阅读 · 6月10日

Dynamic Linear Attention

Arxiv

0+阅读 · 6月9日

SpecSA: Bridging Speculative Decoding and Sparse Attention for Efficient LLM Inference

Arxiv

0+阅读 · 5月19日

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Arxiv

0+阅读 · 5月18日

AB-Sparse: Sparse Attention with Adaptive Block Size for Accurate and Efficient Long-Context Inference

Arxiv

0+阅读 · 5月12日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

扩散模型中的注意力机制：综述

扩散模型中的注意力机制：综述

专知会员服务

24+阅读 · 2025年4月10日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【ICML2022】基于随机注意力机制的可解释和广义图学习

【ICML2022】基于随机注意力机制的可解释和广义图学习

专知会员服务

33+阅读 · 2022年8月7日

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

深度学习注意力机制，附Slides与视频，Prabhu Prakash Kagitha讲授

专知会员服务

46+阅读 · 2022年6月29日

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

清华&南开最新「视觉注意力机制Attention」综述论文，带你全面了解六大类注意力机制方法

专知会员服务

99+阅读 · 2021年11月20日

注意力机制综述

注意力机制综述

专知会员服务

210+阅读 · 2021年1月26日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

【CVPR2020】CONSAC: 基于条件样本一致性的稳健多模型拟合，Robust Multi-Model Fitting by Conditional Sample Consensus

专知会员服务

32+阅读 · 2020年2月24日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

赛尔笔记 | Attention！注意力机制可解释吗？

赛尔笔记 | Attention！注意力机制可解释吗？

哈工大SCIR

23+阅读 · 2019年9月27日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

注意力机制(Attention)最新综述论文及相关源码

注意力机制(Attention)最新综述论文及相关源码

人工智能学家

30+阅读 · 2018年11月17日

【干货】注意力机制(Attention)最新综述论文及相关源码

【干货】注意力机制(Attention)最新综述论文及相关源码

GAN生成式对抗网络

11+阅读 · 2018年11月16日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【干货】基于Keras的注意力机制实战

【干货】基于Keras的注意力机制实战

专知

59+阅读 · 2018年5月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding

Arxiv

0+阅读 · 6月16日

Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Arxiv

0+阅读 · 6月15日

Rethinking the Role of Efficient Attention in Hybrid Architectures

Arxiv

0+阅读 · 6月13日

CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation

Arxiv

0+阅读 · 6月13日

MiniMax Sparse Attention

Arxiv

0+阅读 · 6月12日

LASA: A Weak Supervision Method for Open-Vocabulary Scene Sketch Semantic Segmentation

Arxiv

0+阅读 · 6月10日

Dynamic Linear Attention

Arxiv

0+阅读 · 6月9日

SpecSA: Bridging Speculative Decoding and Sparse Attention for Efficient LLM Inference

Arxiv

0+阅读 · 5月19日

DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention

Arxiv

0+阅读 · 5月18日

AB-Sparse: Sparse Attention with Adaptive Block Size for Accurate and Efficient Long-Context Inference

Arxiv

0+阅读 · 5月12日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于渐进结构化学习的高维信息稀疏表示理论与技术

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于P300和SSVEP的混合异步脑机接口及其应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员