Mamba selective state space models (SSMs) provide linear-time sequence modeling but are often limited by memory bandwidth in practice, where selective state updates are executed as fragmented kernels with repeated intermediate tensor materialization. We present COREY, a prototype scheduler that uses activation entropy estimated via fixed-width histograms as a runtime signal for chunk-size selection at the kernel-invocation level. COREY is positioned as a Concept and Feasibility contribution: a single-parameter runtime auto-tuner built on an existing Triton selective-scan kernel rather than a new fused implementation. Evidence is organized in three tiers. Tier 1 (Python cost model) shows that entropy-guided grouping reduces surrogate latency and DRAM traffic. Tier 2a (real-checkpoint inline hook) demonstrates that entropy computation and chunk selection can run on the critical path of model.generate(); on Mamba-370M (RTX 3070, n=5), measured overhead is 8.3 percent with full instrumentation and estimated about 2 percent with sparse sampling. Tier 2b (kernel-level scan benchmark) shows that, under a principled calibration where H_ref equals log(K), COREY selects the same chunk as a one-time-profile oracle without offline sweeps and achieves up to 4.41x speedup over static chunk-64. This work does not yet include a fully integrated end-to-end run connecting Tier 2a and Tier 2b, which remains key future work. Across 80 LongBench prompts, entropy distributions are stable, supporting COREY as a practical runtime auto-tuner within a single regime. Code and data: https://github.com/mabo1215/COREY_Transformer/.


翻译:Mamba选择性状态空间模型(SSMs)提供线性时间序列建模能力,但在实际应用中常受限于内存带宽——选择性状态更新以碎片化核的形式执行,并伴随重复的中间张量物化。我们提出COREY,一种利用固定宽度直方图估计激活熵、在核调用层级进行块大小选择的原型调度器。COREY定位为概念与可行性贡献:基于现有Triton选择性扫描核构建的单参数运行时自动调优器,而非全新融合实现。实验证据按三层组织。第一层(Python成本模型)表明,熵引导分组可减少代理延迟与DRAM流量。第二层a(真实检查点内联钩子)证明,熵计算与块选择可在model.generate()关键路径上运行;在Mamba-370M(RTX 3070,n=5)上,完全仪表化的实测开销为8.3%,采用稀疏采样时估计降至约2%。第二层b(核级扫描基准)显示,在H_ref=log(K)的原则性校准下,COREY无需离线扫描即可选择与一次性轮廓预测器相同的块,相较于静态块64实现最高4.41倍加速。本工作尚未包含连接第二层a与第二层b的完整端到端运行,这仍是关键未来工作。对80个LongBench提示的分析显示,熵分布稳定,支持COREY在单域内作为实用运行时自动调优器。代码与数据:https://github.com/mabo1215/COREY\_Transformer/。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
Deformable Kernels,用于图像/视频去噪,即将开源
极市平台
13+阅读 · 2019年8月29日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
安杜里尔与Meta研发军用智能眼镜的内幕
专知会员服务
6+阅读 · 5月22日
超越步调威胁:整合人工智能以加速指挥决策
专知会员服务
8+阅读 · 5月22日
Nature三连发AI自主科学发现论文
专知会员服务
8+阅读 · 5月21日
安杜里尔与人工智能驱动防务的崛起
专知会员服务
14+阅读 · 5月21日
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
15+阅读 · 5月21日
2025年科学计算行业发展研究报告
专知会员服务
9+阅读 · 5月20日
相关VIP内容
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员