LittleBit: Ultra Low-Bit Quantization via Latent Factorization - 专知论文

会员服务 ·

0

比特 · 分解 · 因子 · 因子分解 · 分解的 ·

LittleBit: Ultra Low-Bit Quantization via Latent Factorization

翻译：LittleBit：基于隐因子分解的超低比特量化

Banseok Lee,Dongkyu Kim,Youngcheon You,Youngmin Kim

from arxiv, Accepted to NeurIPS 2025. Banseok Lee and Dongkyu Kim contributed equally

The deployment of large language models (LLMs) is frequently hindered by prohibitive memory and computational requirements. While quantization mitigates these bottlenecks, maintaining model fidelity in the sub-1-bit regime remains a persistent challenge. In this paper, we introduce LittleBit, a novel framework for extreme LLM compression. We target quantization rates as low as $0.1$ bits per weight (BPW), achieving a memory reduction of approximately $31\times$, which effectively compresses Llama2-13B to under $0.9$ GB. We represent weights via low-rank latent matrix factorization and subsequently binarize the resulting factors. To counteract the information loss inherent to such drastic precision reduction, we integrate a multi-scale compensation mechanism that learns importance parameters across row, column, and latent dimensions. Two primary contributions enable effective training: Dual Sign-Value-Independent Decomposition (Dual-SVID) for quantization-aware training (QAT) initialization, and Residual Compensation to minimize approximation errors. Extensive experiments confirm the superiority of LittleBit in the sub-1-bit domain; for instance, our method at $0.1$ BPW surpasses the performance of leading techniques operating at $0.7$ BPW on Llama2-7B. We establish a new size-performance trade-off -- unlocking a potential $11.6\times$ inference speedup relative to FP16 -- and render powerful LLMs practical for resource-constrained environments. Our code is available at https://github.com/SamsungLabs/LittleBit.

翻译：大型语言模型（LLM）的部署常因高昂的内存与计算需求而受阻。量化方法虽能缓解此类瓶颈，但在亚1比特（sub-1-bit）区间保持模型保真度仍是一项持续挑战。本文提出LittleBit，一种用于极端LLM压缩的新框架。我们以低至每权重$0.1$比特（BPW）的量化率为目标，实现了约$31\times$的内存压缩，从而将Llama2-13B模型有效压缩至$0.9$ GB以下。我们通过低秩隐矩阵分解表示权重，并对所得因子进行二值化。为抵消此类极端精度降低带来的固有信息损失，我们引入了一种多尺度补偿机制，该机制可学习行、列及隐维度上的重要性参数。两项核心贡献确保了训练的有效性：用于量化感知训练（QAT）初始化的双符号-值独立分解（Dual-SVID），以及用于最小化近似误差的残差补偿。大量实验证实了LittleBit在亚1比特领域的优越性；例如，在Llama2-7B上，我们以$0.1$ BPW实现的方法性能超越了当前领先的$0.7$ BPW技术。我们建立了一种新的尺寸-性能权衡关系——相较于FP16实现了潜在的$11.6\times$推理加速——使得强大LLM在资源受限环境中具备实际部署可行性。代码已发布于https://github.com/SamsungLabs/LittleBit。

0

相关内容

Youtu-LLM：激发轻量化大语言模型原生的智能体潜力

Youtu-LLM：激发轻量化大语言模型原生的智能体潜力

专知会员服务

19+阅读 · 1月3日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知会员服务

15+阅读 · 2025年1月5日

低比特大语言模型综述：基础、系统与算法

低比特大语言模型综述：基础、系统与算法

专知会员服务

28+阅读 · 2024年10月6日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

专知会员服务

78+阅读 · 2023年5月8日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小米开源FALSR算法：快速精确轻量级的超分辨率模型

小米开源FALSR算法：快速精确轻量级的超分辨率模型

AI100

11+阅读 · 2019年1月31日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向失真最小化的大规模MIMO信号峰值降低技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

量子点中重空穴-轻空穴耦合和发光极化各向异性机制和量子调控

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

Arxiv

0+阅读 · 3月18日

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Arxiv

0+阅读 · 3月17日

PEFT-Bench: A Parameter-Efficient Fine-Tuning Methods Benchmark

Arxiv

0+阅读 · 2月22日

1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization

Arxiv

0+阅读 · 2月17日

TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling

Arxiv

0+阅读 · 2月7日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 2月6日

D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs

Arxiv

0+阅读 · 2月6日

Conflict-Resolving and Sharpness-Aware Minimization for Generalized Knowledge Editing with Multiple Updates

Arxiv

0+阅读 · 2月3日

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Arxiv

0+阅读 · 2月2日

NeUQI: Near-Optimal Uniform Quantization Parameter Initialization for Low-Bit LLMs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

0+阅读 · 29分钟前

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

0+阅读 · 34分钟前

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

0+阅读 · 48分钟前

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

15+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

7+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

8+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

8+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

6+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

13+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

14+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

16+阅读 · 6月13日

相关VIP内容

Youtu-LLM：激发轻量化大语言模型原生的智能体潜力

Youtu-LLM：激发轻量化大语言模型原生的智能体潜力

专知会员服务

19+阅读 · 1月3日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知会员服务

15+阅读 · 2025年1月5日

低比特大语言模型综述：基础、系统与算法

低比特大语言模型综述：基础、系统与算法

专知会员服务

28+阅读 · 2024年10月6日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

专知会员服务

78+阅读 · 2023年5月8日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《通过小型无人机系统将情报能力“作战化”》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《通用大语言模型：无人机指挥与控制接口》最新40页

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

相关资讯

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

小样本也能增量学习？CVPR 2020 Oral最新干货：小样本类增量学习

CVer

54+阅读 · 2020年5月1日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

IBM-小样本学习（Few-shot Learning）State of the art 方法及论文讲解

专知

105+阅读 · 2019年4月15日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

小米开源FALSR算法：快速精确轻量级的超分辨率模型

小米开源FALSR算法：快速精确轻量级的超分辨率模型

AI100

11+阅读 · 2019年1月31日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

相关论文

ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

Arxiv

0+阅读 · 3月18日

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Arxiv

0+阅读 · 3月17日

PEFT-Bench: A Parameter-Efficient Fine-Tuning Methods Benchmark

Arxiv

0+阅读 · 2月22日

1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization

Arxiv

0+阅读 · 2月17日

TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling

Arxiv

0+阅读 · 2月7日

NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models

Arxiv

0+阅读 · 2月6日

D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs

Arxiv

0+阅读 · 2月6日

Conflict-Resolving and Sharpness-Aware Minimization for Generalized Knowledge Editing with Multiple Updates

Arxiv

0+阅读 · 2月3日

Decomposed Trust: Exploring Privacy, Adversarial Robustness, Fairness, and Ethics of Low-Rank LLMs

Arxiv

0+阅读 · 2月2日

NeUQI: Near-Optimal Uniform Quantization Parameter Initialization for Low-Bit LLMs

Arxiv

0+阅读 · 1月30日

相关基金

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

小快拍数下宽带信号超分辨测向性能的多元优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向失真最小化的大规模MIMO信号峰值降低技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

量子点中重空穴-轻空穴耦合和发光极化各向异性机制和量子调控

国家自然科学基金

0+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员