Ternary Mamba: Grouped Quantization-Aware Training of W1.58A16 State Space Models - 专知论文

会员服务 ·

0

三元 · 状态空间 · 词元分析器 · Mamba · 空间模型 ·

Ternary Mamba: Grouped Quantization-Aware Training of W1.58A16 State Space Models

翻译：三元曼巴：W1.58A16状态空间模型的分组量化感知训练

Ramprasath Ganesaraja,Sahil Dilip Panse,Swathika N

State Space Models (SSMs) such as Mamba-2 offer linear-time inference but their memory footprint limits edge deployment. Prior ternary SSM work (Slender-Mamba) trains from scratch on 150B tokens; we show a pretrained checkpoint suffices, reducing the marginal token budget by 1,000x. Using grouped quantization-aware training (QAT) with knowledge distillation from a frozen FP16 teacher, we compress Mamba-2 1.3B to 3.61x (2,687 to 744 MB) and achieve 48.1% zero-shot accuracy (7-task average) in just 102M tokens (4 GPU-hours, single H100) -- approaching Bi-Mamba's 48.4% (within +/-0.9pp CI). This QAT-from-pretrained setting reveals zero-ratio collapse, a novel instability caused by learnable quantization scales that does not arise in from-scratch training. We further show that post-hoc correction strategies effective for Transformers fail for SSMs due to error accumulation through the recurrence. These results demonstrate that ternary SSMs do not require expensive from-scratch training: QAT from pretrained checkpoints with KD is a data-efficient alternative.

翻译：状态空间模型（SSMs，如Mamba-2）支持线性时间推理，但其内存占用限制了边缘部署。先前三元SSM工作（Slender-Mamba）需在150B个token上从头训练；我们证明预训练检查点足以满足需求，将边际token预算降低1000倍。通过使用冻结FP16教师模型的知识蒸馏进行分组量化感知训练（QAT），我们将Mamba-2 1.3B模型压缩3.61倍（从2,687 MB降至744 MB），仅用102M个token（单张H100 4 GPU小时）即达到48.1%零样本准确率（7任务平均值）——接近Bi-Mamba的48.4%（在±0.9个百分点置信区间内）。这种基于预训练模型的QAT设置揭示了零比例坍塌，这是一种由可学习量化尺度引发的新不稳定性，在从头训练中不会出现。我们进一步证明，由于循环过程中的误差累积，对Transformer有效的后置修正策略对SSMs失效。这些结果表明，三元SSM无需昂贵的从头训练：基于预训练检查点的QAT结合知识蒸馏是一种数据高效的替代方案。

0

相关内容

综述 | 状态空间模型遇见遥感：SSM/Mamba如何重塑遥感视觉？

综述 | 状态空间模型遇见遥感：SSM/Mamba如何重塑遥感视觉？

专知会员服务

13+阅读 · 6月28日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

17+阅读 · 4月23日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

31+阅读 · 2023年6月18日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

正交非负矩阵分解的算法、理论与应用

国家自然科学基金

8+阅读 · 2017年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

插值条件下DEM误差的空间自相关模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

S4oP: Operator-level Pruning of Structured State Space Models for Resource-Constrained Devices

Arxiv

0+阅读 · 6月16日

Reload-Mamba: Hierarchical Anti-Dilution State-Space Modeling for Multi-Class Semantic Segmentation

Arxiv

0+阅读 · 6月16日

Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

Arxiv

0+阅读 · 6月15日

MambaH-Fit: Rethinking Hyper-surface Fitting-based Point Cloud Normal Estimation via State Space Modelling

Arxiv

0+阅读 · 6月14日

ReQAT: Achieving Full-Precision Reasoning Accuracy with 4-bit Floating-Point Quantization-Aware Training

Arxiv

0+阅读 · 6月14日

Akasha 2: Hamiltonian State Space Duality and Visual-Language Joint Embedding Predictive Architectur

Arxiv

0+阅读 · 6月13日

TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization

Arxiv

0+阅读 · 6月12日

Ouroboros-Spatial: Closing the Data-Model Loop for Spatial Reasoning

Arxiv

0+阅读 · 6月10日

Asymmetric Virtual Memory Paging for Hybrid Mamba-Transformer Inference

Arxiv

0+阅读 · 5月21日

Truncated Neural Likelihood Estimation for Simulation-Based Inference in State-Space Models

Arxiv

0+阅读 · 5月20日

VIP会员

文章信息

相关主题

词元分析器

最新内容

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

0+阅读 · 5分钟前

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

11+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

9+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

10+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

5+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

9+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

7+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

7+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

7+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

5+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

12+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

7+阅读 · 7月31日

相关VIP内容

综述 | 状态空间模型遇见遥感：SSM/Mamba如何重塑遥感视觉？

综述 | 状态空间模型遇见遥感：SSM/Mamba如何重塑遥感视觉？

专知会员服务

13+阅读 · 6月28日

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

17+阅读 · 4月23日

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

Mamba 架构在医学图像分析中的全面综述：分类、分割、重建及其他应用

专知会员服务

29+阅读 · 2024年10月4日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

19+阅读 · 2024年5月21日

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

31+阅读 · 2023年6月18日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

《模拟空战团队态势感知精度测量技术——感知与绩效的曲线关系》芬兰国防大学

专知会员服务

37+阅读 · 2022年6月20日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

相关论文

S4oP: Operator-level Pruning of Structured State Space Models for Resource-Constrained Devices

Arxiv

0+阅读 · 6月16日

Reload-Mamba: Hierarchical Anti-Dilution State-Space Modeling for Multi-Class Semantic Segmentation

Arxiv

0+阅读 · 6月16日

Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

Arxiv

0+阅读 · 6月15日

MambaH-Fit: Rethinking Hyper-surface Fitting-based Point Cloud Normal Estimation via State Space Modelling

Arxiv

0+阅读 · 6月14日

ReQAT: Achieving Full-Precision Reasoning Accuracy with 4-bit Floating-Point Quantization-Aware Training

Arxiv

0+阅读 · 6月14日

Akasha 2: Hamiltonian State Space Duality and Visual-Language Joint Embedding Predictive Architectur

Arxiv

0+阅读 · 6月13日

TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization

Arxiv

0+阅读 · 6月12日

Ouroboros-Spatial: Closing the Data-Model Loop for Spatial Reasoning

Arxiv

0+阅读 · 6月10日

Asymmetric Virtual Memory Paging for Hybrid Mamba-Transformer Inference

Arxiv

0+阅读 · 5月21日

Truncated Neural Likelihood Estimation for Simulation-Based Inference in State-Space Models

Arxiv

0+阅读 · 5月20日

相关基金

正交非负矩阵分解的算法、理论与应用

国家自然科学基金

8+阅读 · 2017年12月31日

半参数空间自回归模型的理论研究及应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

插值条件下DEM误差的空间自相关模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

信号时频分析与包络的数学模型

国家自然科学基金

1+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员